当前位置: 首页 > news >正文

10 分钟搭好语音 AI Agent,LiveKit 凭什么成为 OpenAI 的基建选择

你有没有遇到过这个问题:想给自己的 AI 产品加上语音对话,结果发现光是处理音频流、管理 WebRTC 连接、接 STT、接 LLM、接 TTS 就已经让你焦头烂额,还没开始写业务逻辑,架构就已经乱成一锅粥。

LiveKit 解决的正是这个问题。它给你一整套从实时媒体传输到 AI 模型调用的完整 pipeline,让你专注在"Agent 应该怎么说话、怎么反应",而不是"怎么把音频从 A 传到 B"。

LiveKit 是什么:从 WebRTC 基建到 AI Agent 平台

LiveKit 成立于 2021 年,最初是一个高性能的开源 WebRTC 媒体服务器,用 Go 编写,在 GitHub 上已累计超过 19,000 star。它的核心livekit/livekit仓库处理音视频的实时传输、房间管理、SFU(Selective Forwarding Unit)路由等底层逻辑。

2023 年之后,AI 浪潮改变了它的方向。LiveKit 推出了livekit/agents框架(11,000+ star),将自己从一个媒体服务器升级成了完整的 AI Agent 开发平台,支持语音、视频和机器人三个方向。

它的商业版 LiveKit Cloud 目前每年处理超过 25 亿次通话,覆盖全球 18+ 个地区节点,SOC 2 Type 2、HIPAA、GDPR 全部合规。客户名单里有 OpenAI(ChatGPT Advanced Voice 就跑在上面)、xAI、Salesforce、Skydio 等。

核心架构:STT-LLM-TTS 三段流水线

LiveKit Agents 的语音 AI 工作原理可以用一张图概括:用户说话,语音流通过 WebRTC 传到 Agent,Agent 经过三个环节处理后,把合成的语音回传给用户。

用户麦克风 -> WebRTC 流 -> STT(语音转文字)-> LLM(推理决策)-> TTS(文字转语音)-> 用户耳机

三个环节都是可以自由替换的插件:STT 支持 Deepgram、AssemblyAI、ElevenLabs Scribe 等;LLM 支持 OpenAI GPT 系列、Google Gemini、xAI Grok、DeepSeek 等;TTS 支持 Cartesia、ElevenLabs、Deepgram Aura 等。除了链式 pipeline,LiveKit 还支持直接对接 OpenAI Realtime API 这种 speech-to-speech 的一体化模型。

框架还内置了端点检测(Turn Detection)和打断处理(Interruption Handling),这两个细节决定了对话体验的自然程度,是自己用 WebSocket 搭一套通常会踩坑最久的地方。

10 分钟上手:Python 快速集成

先安装 LiveKit CLI,它会帮你初始化项目、配置凭证、连接云端:

# macOSbrewinstalllivekit-cli# Linuxcurl-sSLhttps://get.livekit.io/cli|bash# 登录并关联你的 LiveKit Cloud 项目lk cloud auth

然后一条命令创建 Python Agent 项目模板:

lk agent init my-agent--templateagent-starter-pythoncdmy-agent uvsyncuv run--modulelivekit.agents download-files

模板生成的agent.py核心代码非常简洁,业务逻辑全在instructions里:

fromlivekitimportagentsfromlivekit.agentsimportAgentServer,AgentSession,Agent,inferenceclassAssistant(Agent):def__init__(self)->None:super().__init__(instructions="""你是一个专业的客服助手。 回答简洁,不要使用 Markdown 格式或 emoji。""")server=AgentServer()@server.rtc_session(agent_name="my-agent")asyncdefmy_agent(ctx:agents.JobContext):session=AgentSession(# STT: 语音转文字stt=inference.STT(model="deepgram/nova-3",language="multi"),# LLM: 语言推理llm=inference.LLM(model="openai/chat-latest"),# TTS: 文字转语音tts=inference.TTS(model="cartesia/sonic-3"),)awaitsession.start(room=ctx.room,agent=Assistant())awaitsession.generate_reply(instructions="用中文问候用户并询问需要什么帮助。")if__name__=="__main__":agents.cli.run_app(server)

本地启动开发模式,直接在终端就能和 Agent 说话:

# 开发模式,支持热重载uv run src/agent.py dev# 部署到 LiveKit Cloudlk agent create

如果你更偏向 Node.js,LiveKit 同样提供完整的 TypeScript SDK 和 starter 模板,API 设计与 Python 版本几乎对称,切换成本很低。

后端生成 Token:Python 签发接口

前端连接 LiveKit 需要一个 JWT Token,必须由后端用 API Secret 签发,绝对不能在前端生成(否则会暴露密钥)。安装服务端 SDK:

pipinstalllivekit-api fastapi uvicorn

用 FastAPI 暴露一个 token 接口,和之前的 Agent 共用同一套环境变量:

importos,timefromfastapiimportFastAPIfromlivekit.apiimportAccessToken,VideoGrants app=FastAPI()@app.get("/api/token")defget_token(room:str="my-room"):token=(AccessToken(api_key=os.environ["LIVEKIT_API_KEY"],api_secret=os.environ["LIVEKIT_API_SECRET"],).with_identity(f"user-{int(time.time())}").with_grants(VideoGrants(room_join=True,room=room)))return{"token":token.to_jwt()}

启动服务:

uvicorn main:app--reload

Agent 和 token 接口共用.env.local里的三个变量,无需额外配置:

LIVEKIT_URL=wss://your-project.livekit.cloudLIVEKIT_API_KEY=your_api_keyLIVEKIT_API_SECRET=your_api_secret

前端接入:Web SDK 接通 Agent

前端调用上面的 token 接口拿到 JWT,再通过 LiveKit Web SDK 接入。安装依赖:

npminstall@livekit/components-react livekit-client

useVoiceAssistant()必须在LiveKitRoom的子组件内调用,BarVisualizer是官方提供的音频波形组件,两者配合就能实现带动画的对话 UI:

import{useState,useEffect}from'react';import{LiveKitRoom,RoomAudioRenderer,BarVisualizer,useVoiceAssistant}from'@livekit/components-react';// BarVisualizer 必须放在 LiveKitRoom 子组件内,才能访问 Room contextfunctionAgentVisualizer(){const{state,audioTrack}=useVoiceAssistant();return<BarVisualizer state={state}trackRef={audioTrack}/>;}exportdefaultfunctionVoiceChat(){const[token,setToken]=useState<string>('');useEffect(()=>{// 从后端获取 token,room 名与 Agent 一致fetch('/api/token?room=my-room').then(r=>r.json()).then(d=>setToken(d.token));},[]);if(!token)return<div>Loading...</div>;return(<LiveKitRoom serverUrl={process.env.NEXT_PUBLIC_LIVEKIT_URL}token={token}connect={true}><RoomAudioRenderer/><AgentVisualizer/></LiveKitRoom>);}

前端和 Agent 加入同一个room(这里是my-room),连接建立后 Agent 会自动接管音频流,整个 pipeline 就跑通了。除了 Web,LiveKit 还提供 iOS、Android、Flutter、Unity 的原生 SDK,以及 SIP/电话集成,让你的 Agent 真正能接打电话。

竞品横向对比:选 LiveKit 还是别的?

做实时音视频 AI,市面上绕不开以下几个选择:

维度LiveKitDaily.coAgoraTwilio
定位AI Agent 平台 + 实时媒体视频通话 API实时音视频 SDK通信平台
开源完全开源 Apache 2.0闭源SDK 部分开源闭源
AI Agent 框架原生,pipeline 内置Pipecat 集成Conversational AI SDK无原生框架
模型生态30+ 模型依赖第三方OpenAI、Azure 为主需自行对接
自托管支持不支持支持私有化不支持
电话/SIP内置需额外配置支持原生最强
免费额度1,000 分钟/月有限按并发峰值按分钟计费
适合场景AI 语音 Agent、实时对话视频会议、在线教育直播互动、游戏语音呼叫中心、企业通信

简单说:如果你要构建的是 AI 语音助手、电话机器人、实时对话产品,LiveKit 是当下生态最完整、开发体验最好的选择。Agora 在国内的延迟表现更好,如果用户主要在中国大陆,Agora 的网络基建更有优势。Twilio 的电话能力最强,但 AI Agent 部分需要大量自行搭建。

定价与选型建议

LiveKit Cloud 的免费套餐(Build 计划)包含每月 1,000 分钟 Agent 会话、2.5 美元推理额度、1 个免费电话号码,不需要信用卡,足够个人项目和原型验证使用。

语音 Agent 的综合成本约为每分钟 0.07 美元(含 Agent session、WebRTC、STT、LLM、TTS、可观测性),这个价格在同类产品中属于中等水平。Ship 计划每月 50 美元起,适合正式上线的小团队;Scale 计划每月 500 美元起,提供 HIPAA 合规、Region Pinning 和推理折扣。

对于想要完全控制成本和数据的团队,LiveKit 的开源服务器(livekit/livekit)可以自托管,Agents 框架也完全支持自行对接任意模型 API,不依赖 LiveKit Cloud 的推理服务。


真正的极客不会从零造轮子,而是选对工具之后,把时间花在真正有价值的地方。

LiveKit 已经把实时音视频传输和 AI 模型接入这两件最繁琐的事情打包好了,剩下的问题是:你的 Agent 该说什么,该怎么思考。那才是真正值得花时间的问题。

仓库地址:github.com/livekit/agents,在线体验:livekit.com,有问题可以加官方 Slack 社区。


我是 Yuguo,软件设计师,正在用 AI 重构自己的开发工作流。
踩过的坑、跑通的方案、省下来的时间,都记在绿泡泡Feed中。 一起把 AI 真正用起来。

http://www.jsqmd.com/news/1067387/

相关文章:

  • Emacs AI助手:3个理由让你在编辑器中体验大型语言模型的强大能力
  • DFIG双馈风机、低电压穿越LVRT+转子侧快速短接、网侧矢量补偿控制仿真(带参考文献)
  • PCB建议
  • 探索未来能源:离网光伏系统如何改变生活
  • AI工程师必抢的稀缺资源:SITS 2026官方Behavior Cloning Benchmark Kit(含6类真实机器人任务数据集+基线模型权重)
  • 技术实战 | 抗原-TCR亲和力优化:5步突破免疫治疗瓶颈
  • Ricon组态技术架构 - 企业级Web组态解决方案
  • 【无人机】基于MATLAB的航空探空无人机纵向稳定性和俯仰自动驾驶仪设计Simulink仿真
  • RAG 检索精度优化之道:数据清洗与预处理全流程深度解析
  • 承接定制AI智能控制会议医疗录播主机
  • 前后端分离德州酒吧小程序:存酒管理、扫码点单、在线组局逻辑代码拆解
  • Techwiz LCD 1D:宾主效应液晶模式
  • 快捷、网关支付选型指南
  • AI不是从天而降,它经历了七十年三起三落:通过图灵测试读懂AI
  • 【AI原生LoRA技术权威指南】:SITS 2026低秩适配全栈解析——覆盖训练、部署、量化3大实战瓶颈
  • LeetCode 189数组轮转问题详解:辅助数组法与三次翻转法
  • 10个WordPress故障排除场景下的高效诊断与修复方案
  • AI掘金头条新闻系统 (Toutiao News)-删除浏览历史
  • 当 SiC 遇上 3300V:一台国产仪器如何接住第三代半导体的“测试重担“
  • Reproxy:微服务时代边缘代理的终极解决方案
  • Means:基于 .NET 10 打造的开源自部署 S3 兼容对象存储服务
  • BLE 广播 rawBytes 解析说明
  • 二年级下册语文复习1-8单元:口语交际+写话训练(ppt课件)
  • 基于KNN算法的健身会员个性化锻炼与饮食方案推荐研究
  • 90% 运营踩坑:跳过监测直接优化,难怪流量上不去
  • 代码审查与性能诊断实战:用Gemini镜像站对PHP/Java项目进行自动化深度体检
  • 一文读懂主流仓库管理系统,精准选型不踩坑
  • 维铂叁科普知识丨数字防伪印章
  • Agent替人打电话:银企直连支付终态确认的语音问询方案探索
  • 从概念验证到百万QPS商用:3家头部AI OS厂商同步采用的插件生命周期管理模型(含GitHub Star超2.4k的开源参考实现)