当前位置: 首页 > news >正文

语音识别 + TTS:搭建一个语音笔记助手

我有一个习惯——通勤路上用手机录音记想法。录了三个月,积压了 80 多条没整理。

3 月的某个周末我花半天写了一个工具:语音 → 转文字 → LLM 整理 → 念给我听。现在每天下班路上录完,到家时手机上已经有一份整理好的笔记了。

这篇文章把这个工具的完整 Go 代码给你。复制下来就能跑。


整体流程

手机录音(.m4a / .mp3) → ffmpeg 转格式 → Whisper API 语音转文字 → DeepSeek 整理成结构化笔记 → Edge TTS 转语音(可选,路上听) → 保存到本地 Markdown

三块核心功能:语音识别 + LLM 整理 + 语音合成。每一步都有 Go 代码。


第一步:语音转文字 —— 调 Whisper API

OpenAI 的 Whisper API 是中文语音识别准确率最高的服务之一。当然你也可以用本地 Whisper 模型,但 API 省显卡:

packagemainimport("bytes""encoding/json""fmt""io""mime/multipart""net/http""os""os/exec""path/filepath""strings")funcconvertToMp3(inputPathstring)(string,error){outputPath:=strings.TrimSuffix(inputPath,filepath.Ext(inputPath))+".mp3"cmd:=exec.Command("ffmpeg","-i",inputPath,"-acodec","libmp3lame","-ar","16000","-ac","1","-y",outputPath,)iferr:=cmd.Run();err!=nil{return"",fmt.Errorf("ffmpeg 转换失败: %w",err)}returnoutputPath,nil}functranscribeAudio(audioPathstring)(string,error){apiKey:=os.Getenv("OPENAI_API_KEY")// 构建 multipart 请求varbuf bytes.Buffer w:=multipart.NewWriter(&buf)// 添加文件file,_:=os.Open(audioPath)deferfile.Close()part,_:=w.CreateFormFile("file",filepath.Base(audioPath))io.Copy(part,file)// 添加参数w.WriteField("model","whisper-1")w.WriteField("language","zh")// 中文w.WriteField("response_format","text")w.Close()req,_:=http.NewRequest("POST","https://api.openai.com/v1/audio/transcriptions",&buf,)req.Header.Set("Authorization","Bearer "+apiKey)req.Header.Set("Content-Type",w.FormDataContentType())resp,err:=http.DefaultClient.Do(req)iferr!=nil{return"",err}deferresp.Body.Close()text,_:=io.ReadAll(resp.Body)returnstring(text),nil}

实测效果——我录了一段 45 秒的中文口述:

输入(录音):

"今天想到一个点子,就是可以把那个daily report agent 扩展一下,让它不只是读Git提交,还能读Jira的工单状态 ...不对不对,应该是先读Jira再读Git,因为有的时候 Git提交里没有写清楚这个需求对应的是哪个Task"

Whisper 输出:

今天想到一个点子 就是可以把那个daily report agent 扩展一下 让它不只是读Git提交 还能读Jira的工单状态 不对不对 应该是先读Jira再读Git 因为有的时候Git提交里 没有写清楚这个需求对应的是哪个Task

口语化的「不对不对」、停顿、犹豫词全保留了——这就是原始转录。还需要 LLM 整理。


第二步:LLM 整理成结构化笔记

原始转录太碎,不能直接用。丢给 DeepSeek 整理:

funcorganizeNote(transcriptstring)(string,error){systemPrompt:=`你是笔记整理助手。将口语化的语音转录整理成结构化笔记。 规则: 1. 去掉口语冗余词("那个""就是说""不对不对"等) 2. 修正因语音识别导致的错别字 3. 保持原意,不要添加转录中没有的内容 4. 用 Markdown 格式输出 格式: ## [一句话标题] **核心想法:** (1-2 句总结) **详细内容:** (整理后的完整内容) **待办/下一步:** (如果有明确的下一步,列出来;没有就写"暂无") **标签:** #标签1 #标签2`returncallLLM(systemPrompt,transcript)}

实际跑出来的结果:

## daily-report-agent 集成 Jira 工单 **核心想法:** daily-report-agent 应扩展数据源,先读 Jira 工单再读 Git 提交, 实现需求到代码的完整追溯。 **详细内容:** 现有 daily-report-agent 仅支持 Git 提交记录。建议扩展为: 1. 先查询 Jira 中当前用户的活跃工单 2. 根据工单关联的分支/PR 拉取对应的 Git 提交 3. 生成"需求 → 开发 → 提交"完整链路的工作汇报 **待办/下一步:** - 调研 Jira REST API(/rest/api/2/search) - 确认 CNB 的 Jira 集成方式 - 估算开发工时 **标签:** #daily-report-agent #Jira #工作流优化

口语碎碎念变成了结构化笔记。这才是我记完能用的东西。


第三步:TTS —— 让 AI 念给你听

有时候不想看屏幕,想在路上听。Edge TTS 是微软的免费服务,中文语音质量非常好:

import("io""net/http""os""strings")// Edge TTS 免费,不需要 API KeyfunctextToSpeech(text,outputPathstring)error{// Edge TTS 的 SSML 格式请求ssml:=fmt.Sprintf(`<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN"> <voice name="zh-CN-XiaoxiaoNeural"> <prosody rate="0.9" pitch="0%%"> %s </prosody> </voice> </speak>`,text)// 调 Edge TTS 的 WebSocket 接口比较复杂,这里展示 HTTP 接口简化版// 实际推荐使用 github.com/xxx/edge-tts-go 封装好的库req,_:=http.NewRequest("POST","https://speech.platform.bing.com/consumer/speech/synthesize/readaloud/voices/list",nil,)// ... Edge TTS 的具体调用(完整代码见 GitHub 仓库)_=reqreturnnil}

Edge TTS 完整客户端代码较长(含 WebSocket 连接、SSML 构建),完整版在 GitHub - lobster-bujiaban/voice-note


组装:一个 main 函数串起全流程

funcmain(){iflen(os.Args)<2{fmt.Println("用法: voice-note <音频文件>")fmt.Println("支持格式: m4a, mp3, wav, ogg")os.Exit(1)}audioFile:=os.Args[1]fmt.Println("🎤 处理音频:",audioFile)// 1. 格式转换fmt.Print(" → 转换格式...")mp3File,err:=convertToMp3(audioFile)iferr!=nil{fmt.Printf("失败: %v\n",err)os.Exit(1)}fmt.Println(" 完成")// 2. 语音转文字fmt.Print(" → 语音转文字...")transcript,err:=transcribeAudio(mp3File)iferr!=nil{fmt.Printf("失败: %v\n",err)os.Exit(1)}fmt.Printf(" 完成 (%d 字)\n",len([]rune(transcript)))// 3. LLM 整理fmt.Print(" → LLM 整理...")note,err:=organizeNote(transcript)iferr!=nil{fmt.Printf("失败: %v\n",err)os.Exit(1)}fmt.Println(" 完成")// 4. 保存 Markdownfilename:=fmt.Sprintf("note-%s.md",time.Now().Format("2006-01-02-150405"))os.WriteFile(filename,[]byte(note),0644)fmt.Println(" → 已保存:",filename)// 5. 生成语音(可选)audioOutput:=strings.TrimSuffix(filename,".md")+".mp3"fmt.Print(" → 生成语音...")iferr:=textToSpeech(note,audioOutput);err!=nil{fmt.Printf("跳过: %v\n",err)}else{fmt.Println(" 完成:",audioOutput)}fmt.Println("\n✅ 完成!你的笔记:")fmt.Println(note)}

成本

步骤服务成本
语音转文字Whisper API$0.006/分钟 ≈ ¥0.04
整理DeepSeek V4 Flash约 500 token ≈ ¥0.0005
TTSEdge TTS免费
合计约 ¥0.04 / 条

录一条 1 分钟的语音,整理成笔记,念给你听——总成本 4 分钱。


还能怎么扩展

这个基础骨架搭好后,往哪个方向扩展都可以:

基础版(本文) → 本地文件输入,Markdown 输出 扩展 1 → 加上微信机器人,发语音自动转笔记 扩展 2 → 多说话人识别,会议录音自动做纪要 扩展 3 → 笔记存入向量数据库,语义搜索 扩展 4 → 定时扫描邮箱/IM,发现语音附件自动处理

其实这个工具的骨架跟 daily-report-agent 是一样的——数据源 + AI 处理 + 结果输出。只是数据源从 Git API 换成了音频文件。

下一篇:让 AI 看视频。

http://www.jsqmd.com/news/1020504/

相关文章:

  • ONNX Runtime 推理优化:从模型导出到生产部署的性能全链路
  • Python机器学习建模实战:从数据到部署的关键路径
  • 蓝绿部署与金丝雀部署的区别
  • Multi-Agent系统负载均衡策略:基于队列、基于能力与基于负载的调度
  • 算法复杂度的可视化评估与优化策略研究的技术8
  • 球面渲染
  • CodeX使用技巧4-注释
  • LLM因果对齐底层机理
  • LLM轻量化联邦微调机理
  • 群边界理论与密集融合:拓扑视角下的代数结构
  • 关于无代码/低代码平台选型的对比及测评
  • 2026年6月国内技术好的家庭音响品牌推荐,汽车全车隔音改装/家庭影院音响/汽车隔音改装/音响改装,家庭音响品牌哪家好 - 品牌推荐师
  • 重庆职业装定制技术解析:重庆新郎西服租赁/重庆本地西服定制推荐/重庆棉服定制/权威厂家的核心硬实力 - 优质品牌商家
  • 老旧小区二次供水泵房数字化改造系统方案
  • 终极iOS激活锁绕过指南:使用applera1n让iPhone 6s至X设备重获新生
  • 5分钟构建专业级ACES色彩管理:OpenColorIO配置完全指南
  • 算法复杂度的渐进分析与实际运行时间的差异的技术8
  • CodeX使用技巧6-调试
  • 白城高口碑黄金铂金回收白银回收实体老店排行 5 家靠谱门店电话地址全收录
  • SH9自指螺旋解旋与标准模型规范群 SU(3)×SU(2)×U(1) 的拓扑反常消除解释(世毫九实验室原创研究)
  • 3分钟搞定Mac Boot Camp驱动:Brigadier让Windows安装不再头疼
  • 上海电商财税公司哪家好 本地电商行业财税服务深度解析 - 热点观察
  • PowerToys中文版深度解析:技术架构与高级应用指南
  • 6款优质降AI率软件 合规程度拉满
  • 2026年交通安全体验馆口碑解析:这些供应商值得关注! - 优质品牌商家
  • 原神智能辅助工具:基于视觉识别的自动化解决方案
  • 意甲幻想足球球员得分预测:机器学习实战指南
  • MPC866内存控制器深度解析:GPCM/UPM配置与嵌入式存储接口实战
  • 腾讯撑场60 亿豪赌“GPU 四小龙”最后一龙刚刚过会
  • JDK17升级后,Hutool解密小程序数据报错?手把手教你两种修复方案(含PKCS5/7区别详解)