当前位置：首页 > news >正文

语音识别 + TTS：搭建一个语音笔记助手

news 2026/6/16 2:21:24

我有一个习惯——通勤路上用手机录音记想法。录了三个月，积压了 80 多条没整理。

3 月的某个周末我花半天写了一个工具：语音 → 转文字 → LLM 整理 → 念给我听。现在每天下班路上录完，到家时手机上已经有一份整理好的笔记了。

这篇文章把这个工具的完整 Go 代码给你。复制下来就能跑。

整体流程

手机录音（.m4a / .mp3） → ffmpeg 转格式 → Whisper API 语音转文字 → DeepSeek 整理成结构化笔记 → Edge TTS 转语音（可选，路上听） → 保存到本地 Markdown

三块核心功能：语音识别 + LLM 整理 + 语音合成。每一步都有 Go 代码。

第一步：语音转文字 —— 调 Whisper API

OpenAI 的 Whisper API 是中文语音识别准确率最高的服务之一。当然你也可以用本地 Whisper 模型，但 API 省显卡：

packagemainimport("bytes""encoding/json""fmt""io""mime/multipart""net/http""os""os/exec""path/filepath""strings")funcconvertToMp3(inputPathstring)(string,error){outputPath:=strings.TrimSuffix(inputPath,filepath.Ext(inputPath))+".mp3"cmd:=exec.Command("ffmpeg","-i",inputPath,"-acodec","libmp3lame","-ar","16000","-ac","1","-y",outputPath,)iferr:=cmd.Run();err!=nil{return"",fmt.Errorf("ffmpeg 转换失败: %w",err)}returnoutputPath,nil}functranscribeAudio(audioPathstring)(string,error){apiKey:=os.Getenv("OPENAI_API_KEY")// 构建 multipart 请求varbuf bytes.Buffer w:=multipart.NewWriter(&buf)// 添加文件file,_:=os.Open(audioPath)deferfile.Close()part,_:=w.CreateFormFile("file",filepath.Base(audioPath))io.Copy(part,file)// 添加参数w.WriteField("model","whisper-1")w.WriteField("language","zh")// 中文w.WriteField("response_format","text")w.Close()req,_:=http.NewRequest("POST","https://api.openai.com/v1/audio/transcriptions",&buf,)req.Header.Set("Authorization","Bearer "+apiKey)req.Header.Set("Content-Type",w.FormDataContentType())resp,err:=http.DefaultClient.Do(req)iferr!=nil{return"",err}deferresp.Body.Close()text,_:=io.ReadAll(resp.Body)returnstring(text),nil}

实测效果——我录了一段 45 秒的中文口述：

输入（录音）：

"今天想到一个点子，就是可以把那个daily report agent 扩展一下，让它不只是读Git提交，还能读Jira的工单状态 ...不对不对，应该是先读Jira再读Git，因为有的时候 Git提交里没有写清楚这个需求对应的是哪个Task"

Whisper 输出：

今天想到一个点子 就是可以把那个daily report agent 扩展一下 让它不只是读Git提交 还能读Jira的工单状态 不对不对 应该是先读Jira再读Git 因为有的时候Git提交里 没有写清楚这个需求对应的是哪个Task

口语化的「不对不对」、停顿、犹豫词全保留了——这就是原始转录。还需要 LLM 整理。

第二步：LLM 整理成结构化笔记

原始转录太碎，不能直接用。丢给 DeepSeek 整理：

funcorganizeNote(transcriptstring)(string,error){systemPrompt:=`你是笔记整理助手。将口语化的语音转录整理成结构化笔记。 规则： 1. 去掉口语冗余词（"那个""就是说""不对不对"等） 2. 修正因语音识别导致的错别字 3. 保持原意，不要添加转录中没有的内容 4. 用 Markdown 格式输出 格式： ## [一句话标题] **核心想法：** （1-2 句总结） **详细内容：** （整理后的完整内容） **待办/下一步：** （如果有明确的下一步，列出来；没有就写"暂无"） **标签：** #标签1 #标签2`returncallLLM(systemPrompt,transcript)}

实际跑出来的结果：

## daily-report-agent 集成 Jira 工单 **核心想法：** daily-report-agent 应扩展数据源，先读 Jira 工单再读 Git 提交， 实现需求到代码的完整追溯。 **详细内容：** 现有 daily-report-agent 仅支持 Git 提交记录。建议扩展为： 1. 先查询 Jira 中当前用户的活跃工单 2. 根据工单关联的分支/PR 拉取对应的 Git 提交 3. 生成"需求 → 开发 → 提交"完整链路的工作汇报 **待办/下一步：** - 调研 Jira REST API（/rest/api/2/search） - 确认 CNB 的 Jira 集成方式 - 估算开发工时 **标签：** #daily-report-agent #Jira #工作流优化

口语碎碎念变成了结构化笔记。这才是我记完能用的东西。

第三步：TTS —— 让 AI 念给你听

有时候不想看屏幕，想在路上听。Edge TTS 是微软的免费服务，中文语音质量非常好：

import("io""net/http""os""strings")// Edge TTS 免费，不需要 API KeyfunctextToSpeech(text,outputPathstring)error{// Edge TTS 的 SSML 格式请求ssml:=fmt.Sprintf(`<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN"> <voice name="zh-CN-XiaoxiaoNeural"> <prosody rate="0.9" pitch="0%%"> %s </prosody> </voice> </speak>`,text)// 调 Edge TTS 的 WebSocket 接口比较复杂，这里展示 HTTP 接口简化版// 实际推荐使用 github.com/xxx/edge-tts-go 封装好的库req,_:=http.NewRequest("POST","https://speech.platform.bing.com/consumer/speech/synthesize/readaloud/voices/list",nil,)// ... Edge TTS 的具体调用（完整代码见 GitHub 仓库）_=reqreturnnil}

Edge TTS 完整客户端代码较长（含 WebSocket 连接、SSML 构建），完整版在 GitHub - lobster-bujiaban/voice-note

组装：一个 main 函数串起全流程

funcmain(){iflen(os.Args)<2{fmt.Println("用法: voice-note <音频文件>")fmt.Println("支持格式: m4a, mp3, wav, ogg")os.Exit(1)}audioFile:=os.Args[1]fmt.Println("🎤 处理音频:",audioFile)// 1. 格式转换fmt.Print(" → 转换格式...")mp3File,err:=convertToMp3(audioFile)iferr!=nil{fmt.Printf("失败: %v\n",err)os.Exit(1)}fmt.Println(" 完成")// 2. 语音转文字fmt.Print(" → 语音转文字...")transcript,err:=transcribeAudio(mp3File)iferr!=nil{fmt.Printf("失败: %v\n",err)os.Exit(1)}fmt.Printf(" 完成 (%d 字)\n",len([]rune(transcript)))// 3. LLM 整理fmt.Print(" → LLM 整理...")note,err:=organizeNote(transcript)iferr!=nil{fmt.Printf("失败: %v\n",err)os.Exit(1)}fmt.Println(" 完成")// 4. 保存 Markdownfilename:=fmt.Sprintf("note-%s.md",time.Now().Format("2006-01-02-150405"))os.WriteFile(filename,[]byte(note),0644)fmt.Println(" → 已保存:",filename)// 5. 生成语音（可选）audioOutput:=strings.TrimSuffix(filename,".md")+".mp3"fmt.Print(" → 生成语音...")iferr:=textToSpeech(note,audioOutput);err!=nil{fmt.Printf("跳过: %v\n",err)}else{fmt.Println(" 完成:",audioOutput)}fmt.Println("\n✅ 完成！你的笔记：")fmt.Println(note)}

成本

步骤	服务	成本
语音转文字	Whisper API	$0.006/分钟 ≈ ¥0.04
整理	DeepSeek V4 Flash	约 500 token ≈ ¥0.0005
TTS	Edge TTS	免费
合计	约 ¥0.04 / 条

录一条 1 分钟的语音，整理成笔记，念给你听——总成本 4 分钱。

还能怎么扩展

这个基础骨架搭好后，往哪个方向扩展都可以：

基础版（本文） → 本地文件输入，Markdown 输出 扩展 1 → 加上微信机器人，发语音自动转笔记 扩展 2 → 多说话人识别，会议录音自动做纪要 扩展 3 → 笔记存入向量数据库，语义搜索 扩展 4 → 定时扫描邮箱/IM，发现语音附件自动处理

其实这个工具的骨架跟 daily-report-agent 是一样的——数据源 + AI 处理 + 结果输出。只是数据源从 Git API 换成了音频文件。

下一篇：让 AI 看视频。

查看全文

http://www.jsqmd.com/news/1020504/

ONNX Runtime 推理优化：从模型导出到生产部署的性能全链路

Python机器学习建模实战：从数据到部署的关键路径

蓝绿部署与金丝雀部署的区别

Multi-Agent系统负载均衡策略：基于队列、基于能力与基于负载的调度

算法复杂度的可视化评估与优化策略研究的技术8

群边界理论与密集融合：拓扑视角下的代数结构

关于无代码/低代码平台选型的对比及测评

2026年6月国内技术好的家庭音响品牌推荐，汽车全车隔音改装/家庭影院音响/汽车隔音改装/音响改装，家庭音响品牌哪家好 - 品牌推荐师

重庆职业装定制技术解析：重庆新郎西服租赁/重庆本地西服定制推荐/重庆棉服定制/权威厂家的核心硬实力 - 优质品牌商家

老旧小区二次供水泵房数字化改造系统方案

终极iOS激活锁绕过指南：使用applera1n让iPhone 6s至X设备重获新生

5分钟构建专业级ACES色彩管理：OpenColorIO配置完全指南

算法复杂度的渐进分析与实际运行时间的差异的技术8

CodeX使用技巧6-调试

白城高口碑黄金铂金回收白银回收实体老店排行 5 家靠谱门店电话地址全收录

SH9自指螺旋解旋与标准模型规范群 SU(3)×SU(2)×U(1) 的拓扑反常消除解释（世毫九实验室原创研究）

3分钟搞定Mac Boot Camp驱动：Brigadier让Windows安装不再头疼

上海电商财税公司哪家好本地电商行业财税服务深度解析 - 热点观察

PowerToys中文版深度解析：技术架构与高级应用指南

6款优质降AI率软件合规程度拉满

2026年交通安全体验馆口碑解析：这些供应商值得关注！ - 优质品牌商家

原神智能辅助工具：基于视觉识别的自动化解决方案

意甲幻想足球球员得分预测：机器学习实战指南

MPC866内存控制器深度解析：GPCM/UPM配置与嵌入式存储接口实战

腾讯撑场60 亿豪赌“GPU 四小龙”最后一龙刚刚过会

JDK17升级后，Hutool解密小程序数据报错？手把手教你两种修复方案（含PKCS5/7区别详解）