当前位置: 首页 > news >正文

python开发一款翻译工具

最近,某水果手机厂在万众期待中开了一场没有发布万众期待的手机产品的发布会,发布了除手机外的其他一些产品,也包括最新的水果14系统。几天后,更新了系统的吃瓜群众经过把玩突然发现新系统里一个超有意思的功能——翻译,比如这种:

奇怪的翻译知识增加了!

相比常见的翻译工具,同声翻译工具更具有实用价值,想想不精通其他语言就能和歪果朋友无障碍交流的场景,真是一件美事,不如自己动手实现个工具备用!一个同声翻译工具,逻辑大概可以是先识别,而后翻译,翻译能否成功,识别的准确率是个关键因素。为了降低难度,我决定分两次完成工具开发。首先来实现试试语音识别的部分。

轻车熟路,本次的demo继续调用有道智云API,实现实时语音识别。

效果展示

先看看界面和结果哈:

可以选择多种语音,这里只写了四种常见的:

偶分别测试的中文、韩文、英文。看着还不错哦~

调用API接口的准备工作

首先,是需要在有道智云的个人页面上创建实例、创建应用、绑定应用和实例,获取调用接口用到的应用的id和密钥。具体个人注册的过程和应用创建过程详见文章分享一次批量文件翻译的开发过程

开发过程详细介绍

下面介绍具体的代码开发过程。

首先是根据实时语音识别文档来分析接口的输入输出。接口设计的目的是对连续音频流的实时识别,转换成文本信息并返对应文字流,因此通信采用websocket,调用过程分为认证、实时通信两阶段。

在认证阶段,需发送以下参数:

参数类型必填说明示例
appKeyString已申请的应用IDID
saltStringUUIDUUID
curtimeString时间戳(秒)TimeStamp
signString加密数字签名。sha256
signTypeString数字签名类型v4
langTypeString语言选择,参考支持语言列表zh-CHS
formatString音频格式,支持wavwav
channelString声道,支持1(单声道)1
versionStringapi版本v1
rateString采样率16000

签名sign生成方法如下:
signType=v4;
sign=sha256(应用ID+salt+curtime+应用密钥)。

认证之后,就进入了实时通信阶段,发送音频流,获取识别结果,最后发送结束标志结束通信,这里需要注意的是,发送的音频最好是16bit位深的单声道、16k采样率的清晰的wav音频文件,这里我开发时最开始因为音频录制设备有问题,导致音频效果极差,接口一直返回错误码304(手动捂脸)。

Demo开发:

这个demo使用python3开发,包括maindow.py,audioandprocess.py,recobynetease.py三个文件。界面部分,使用python自带的tkinter库,来进行语言选择、录音开始、录音停止并识别的操作。audioandprocess.py实现了录音、音频处理的逻辑,最后通过recobynetease.py中的方法来调用实时语音识别API。

1.界面部分:

主要元素:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

root=tk.Tk()

root.title("netease youdao translation test")

frm=tk.Frame(root)

frm.grid(padx='80', pady='80')

# label1=tk.Label(frm,text="选择待翻译文件:")

# label1.grid(row=0,column=0)

label=tk.Label(frm,text='选择语言类型:')

label.grid(row=0,column=0)

combox=ttk.Combobox(frm,textvariable=tk.StringVar(),width=38)

combox["value"]=lang_type_dict

combox.current(0)

combox.bind("<<ComboboxSelected>>",get_lang_type)

combox.grid(row=0,column=1)

btn_start_rec=tk.Button(frm, text='开始录音', command=start_rec)

btn_start_rec.grid(row=2, column=0)

lb_Status=tk.Label(frm, text='Ready', anchor='w', fg='green')

lb_Status.grid(row=2,column=1)

btn_sure=tk.Button(frm,text="结束并识别",command=get_result)

btn_sure.grid(row=3,column=0)

root.mainloop()

2.音频录制部分,引入pyaudio库(需通过pip安装)来调用音频设备,录制接口要求的wav文件,并通过wave库存储文件:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

def__init__(self, audio_path, language_type,is_recording):

self.audio_path=audio_path,

self.audio_file_name=''

self.language_type=language_type,

self.language=language_dict[language_type]

print(language_dict[language_type])

self.is_recording=is_recording

self.audio_chunk_size=1600

self.audio_channels=1

self.audio_format=pyaudio.paInt16

self.audio_rate=16000

defrecord_and_save(self):

self.is_recording=True

# self.audio_file_name=self.audio_path+'/recordtmp.wav'

self.audio_file_name='/recordtmp.wav'

threading.Thread(target=self.record,args=(self.audio_file_name,)).start()

defrecord(self,file_name):

print(file_name)

p=pyaudio.PyAudio()

stream=p.open(

format=self.audio_format,

channels=self.audio_channels,

rate=self.audio_rate,

input=True,

frames_per_buffer=self.audio_chunk_size

)

wf=wave.open(file_name,'wb')

wf.setnchannels(self.audio_channels)

wf.setsampwidth(p.get_sample_size(self.audio_format))

wf.setframerate(self.audio_rate)

# 读取数据写入文件

whileself.is_recording:

data=stream.read(self.audio_chunk_size)

wf.writeframes(data)

wf.close()

stream.stop_stream()

stream.close()

p.terminate()

3.翻译接口调用部分:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

defrecognise(filepath,language_type):

globalfile_path

file_path=filepath

nonce=str(uuid.uuid1())

curtime=str(int(time.time()))

signStr=app_key+nonce+curtime+app_secret

print(signStr)

sign=encrypt(signStr)

uri="wss://openapi.youdao.com/stream_asropenapi?appKey="+app_key+"&salt="+nonce+"&curtime="+curtime+\

"&sign="+sign+"&version=v1&channel=1&format=wav&signType=v4&rate=16000&langType="+language_type

print(uri)

start(uri,1600)

defencrypt(signStr):

hash=hashlib.sha256()

hash.update(signStr.encode('utf-8'))

returnhash.hexdigest()

defon_message(ws, message):

result=json.loads(message)

try:

resultmessage1=result['result'][0]

resultmessage2=resultmessage1["st"]['sentence']

print(resultmessage2)

exceptException as e:

print('')

defon_error(ws, error):

print(error)

defon_close(ws):

print("### closed ###")

defon_open(ws):

count=0

file_object=open(file_path,'rb')

whileTrue:

chunk_data=file_object.read(1600)

ws.send(chunk_data, websocket.ABNF.OPCODE_BINARY)

time.sleep(0.05)

count=count+1

ifnotchunk_data:

break

print(count)

ws.send('{\"end\": \"true\"}', websocket.ABNF.OPCODE_BINARY)

defstart(uri,step):

websocket.enableTrace(True)

ws=websocket.WebSocketApp(uri,

on_message=on_message,

on_error=on_error,

on_close=on_close)

ws.on_open=on_open

ws.run_forever()

总结有道智云提供的接口一如既往的好用,这次开发主要的精力全都浪费在了由于我自己录制的音频质量差而识别失败的问题上,音频质量ok后,识别结果准确无误,下一步就是拿去翻译了,有了有道智云API,实现实时翻译也可以如此简单!

http://www.jsqmd.com/news/669042/

相关文章:

  • RAG流程详解
  • 2026年热门的室内安全体验馆稳定合作公司 - 品牌宣传支持者
  • SQL处理分组聚合中的数据一致性_使用事务保证
  • 不止于加载:在Cesium中优化ArcGIS WMTS地图服务的性能与视觉体验
  • 【AGI环境监测革命】:3大颠覆性应用、7类实时预警场景与2025碳中和落地路径
  • 从 0 到 1 构建销售 AI Agent Harness Engineering:线索生成、客户画像与转化预测实战
  • 别再为网络不通发愁了!手把手教你配置ARM与交换芯片的MAC直连模式
  • XML 与 CSS:构建现代网页的关键技术
  • Spark大数据分析实战【1.4】
  • Spring Boot项目里,别再用try-catch了!试试@ControllerAdvice+@ExceptionHandler搞定全局异常
  • ESP32开发环境搭建:手把手教你搞定Python依赖报错(ESP-IDF 4.x/5.x通用)
  • CentOS 7.9 保姆级教程:从零搭建IPFS私有节点,并配置WebUI可视化面板
  • 别再傻傻等编译了!手把手教你给Gradle配上本地+远程缓存,Android构建速度飞起
  • 从家庭路由器到云服务器:一次完整的Web请求,DNS、NAT和ICMP都扮演了什么角色?
  • 2026年热门的烟台沙滩赶海热门推荐 - 行业平台推荐
  • 从理论到实践:一维与二维水污染扩散模型的在线模拟与代码实现
  • AGI用户研究黄金三角模型(SITS2026首次发布|含实时仿真沙盒访问权限)
  • 别再只盯着协议了!手把手教你用示波器实测MIPI D-PHY的HS/LP模式切换波形
  • RuoYi-Vue-Pro邮件系统架构解析:企业级消息通知的异步化设计与全链路监控
  • 如何让导航栏的下落动画效果更慢?
  • 从『红色警报』到现实网络:聊聊关键节点失效与系统鲁棒性(附Python模拟代码)
  • Halcon灰度投影实战:用‘简单’模式搞定二维码的快速粗定位
  • 软件规模-功能点分析法
  • QT账号注册踩坑实录:密码要求太奇葩?邮箱验证卡住了?一篇帮你全搞定
  • 从“面包重量”到“用户停留时长”:产品经理/运营必懂的CDF与PDF实战解读
  • 【AGI落地倒计时18个月】:2026奇点大会实测数据揭示——通用智能商用化窗口正在急速收窄
  • 如何快速下载网页视频:VideoDownloadHelper完整指南
  • Laravel 11.x新特性全解析
  • SketchUp STL插件技术解析:3D打印工作流效率提升85%的架构设计与实现方案
  • STM32 HAL库中断里用HAL_Delay卡死?一个优先级设置帮你搞定(附CubeMX配置)