当前位置: 首页 > news >正文

Gemini 2.5原生音频能力详解

高级音频对话与生成:Gemini 2.5

Gemini天生就是多模态的,能够原生地理解和生成跨文本、图像、音频、视频和代码的内容。在I/O大会上,展示了Gemini 2.5如何在AI驱动的音频对话和生成能力上迈出重要一步。这些模型已被用于为全球用户提供音频功能,覆盖众多产品、原型和语言。例如,NotebookLM的音频概览和Project Astra就是其中的两个应用。以下是对Gemini 2.5原生音频功能的具体介绍。

实时音频对话

人类的对话是丰富且微妙的,意义不仅通过所说的内容传达,还通过说话方式——语调、口音,甚至是非语音的发声,如笑声来体现。认为,对话将是我们与AI交互的关键方式。因此,Gemini在音频中能够原生地进行推理和生成语音,从而实现高效、实时的沟通。

Gemini 2.5 Flash预览版的原生音频对话功能包括:

  • 自然对话:具有卓越质量的语音交互,更恰当的语音表现力和韵律(节奏模式),并具有极低的延迟,从而实现流畅的对话。
  • 风格控制:使用自然语言提示,可以在对话中调整其表达方式,引导其采用特定的口音,产生一系列语调和表情,甚至进行耳语。
  • 工具集成:Gemini 2.5可以在对话中使用工具和函数调用。这使其能够整合来自某中心搜索等来源的实时信息,或使用开发者自定义的工具,使对话更加实用。
  • 对话上下文感知(主动音频):系统经过训练,能够识别并忽略背景语音、环境对话和其他无关音频,在适当时机做出响应。简而言之,它能理解何时不该说话。
  • 音视频理解:凭借对音频和视频流的原生支持,Gemini 2.5可以与您就视频流或屏幕共享中看到的内容进行对话。
  • 多语言支持:可以使用24种以上支持的语言进行对话,甚至可以在同一句话中轻松混合多种语言。
  • 情感对话:Gemini 2.5能够响应用户的语音语调,认识到相同的词语以不同的方式说出来可能会导致截然不同的对话。
  • 高级思维对话:Gemini的推理能力可以增强其对话效果,从而在所有功能上带来更好的整体表现。这带来了更连贯、更智能的交互,尤其是在复杂推理任务中。

可控文本转语音技术

文本转语音技术正在飞速发展,凭借最新的模型,我们正超越自然性,实现对生成音频前所未有的控制。现在,可以生成从短片段到长篇叙述的任何内容,并精确地规定风格、语调、情感表达和表现方式——所有这些都可以通过自然语言提示来控制。

额外的控制功能包括:

  • 动态表现:这些模型可以为从诗歌、新闻播报到引人入胜的故事讲述等各种内容带来富有表现力的朗读。它们还能根据要求表现出特定的情感和口音。
  • 增强的语速和发音控制:控制语速,并确保发音更准确,包括针对特定单词。
  • 多说话人对话生成:该模型可以从文本输入生成双人“NotebookLM风格”的音频概览,通过对话使内容更具吸引力。
  • 多语言支持:利用Gemini 2.5轻松创建多语言音频内容,提供对超过24种语言的相同支持。

对于可控语音生成(TTS),可以选择Gemini 2.5 Pro预览版以获得在复杂提示上最先进的质量,或选择Gemini 2.5 Flash预览版以获得经济高效的日常应用。这使得开发者能够动态地为公告、故事、播客、视频游戏等创建音频。

安全与责任

在开发这些原生音频功能的每一个阶段,都主动评估了潜在风险,并利用获得的信息来制定缓解策略。通过严格的内部和外部安全评估(包括全面的红队测试)来验证这些措施,以确保负责任的部署。此外,模型的所有音频输出都嵌入了SynthID水印技术,通过使AI生成的音频可识别来确保透明度。

面向开发者的原生音频能力

正在为Gemini 2.5模型引入原生音频输出功能,通过某机构的AI Studio或Vertex AI中的Gemini API,为开发者提供构建更丰富、更具交互性应用程序的新能力。

要开始探索,开发者可以在某机构AI Studio的“流”选项卡中试用Gemini 2.5 Flash预览版的原生音频对话功能。可控语音生成(TTS)功能对Gemini 2.5 Pro和Flash均提供预览,可以在某机构AI Studio的“生成媒体”选项卡中选择语音生成来使用。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/278683/

相关文章:

  • 模型太大加载不了?SenseVoiceSmall轻量版部署替代方案探讨
  • 2026年专业的北京带司机包车,北京包车,北京私人订制包车公司选购参考榜
  • 政策东风至!安科瑞EMS3.0助力工业绿色微电网建设提速增效
  • docker compose 启动 emqx 4.4
  • 你还在用==null?Java判空最新标准写法曝光
  • 购买金融业务流程外包服务后 ,服务商提供哪些支持?
  • Qwen3-1.7B高并发部署挑战:多实例负载均衡实战方案
  • 完整教程:Transformer实战(31)——解释Transformer模型决策
  • 导师推荐!自考必备!9款一键生成论文工具TOP9测评
  • 政策 + 市场双轮驱动!虚拟电厂迎来爆发期,安科瑞解决方案解锁能源新生态
  • CVE-2025-27591:利用Below日志符号链接漏洞实现权限提升
  • 告别无效Debug!飞算JavaAI一键修复器实测:精准排错,高效提效
  • 从头构建一个简易HashMap,深入理解其底层实现机制与设计思想
  • 导师推荐10个AI论文工具,助你轻松搞定本科毕业论文!
  • 深聊六安恒汇3M铂金店技术实力如何,靠谱性大揭秘
  • 零碳转型加速!能碳管理平台成为工厂 / 园区必备神器,政策 + 方案双加持
  • 钟点家政保姆哪家性价比高,无忧家政优势突显
  • 聊聊太原求推荐的外贸独立站专业公司,哪家性价比高
  • 【高并发场景下的安全判空】:Java字符串空值处理的工业级方案
  • Transformer 大模型架构深度解析(1)NLP 自然语言处理文本表示方法
  • Github 分析了 2500+ 个仓库后,发现大多数 agents.md 都写错了
  • 2026年经验丰富的家政保姆推荐,无忧家政保姆网靠谱公司大盘点
  • Java后端跨域问题一网打尽(含预检请求、凭证传递、多域名配置秘籍)
  • 2026年微栖太空舱口碑排名揭晓,看看研发和充电表现怎样
  • 基于AI多模态分析的日本黄金储备60%跃升研究:外汇结构重构与资产价格联动机制解构
  • 于51/STM32单片机锂电池电压电流电量太阳能充电保护云平台设计(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码
  • 【高并发系统设计必修课】:彻底搞懂ThreadPoolExecutor的corePoolSize与maximumPoolSize区别
  • 7.2 版本流转:从 Docker Image Tag 视角看制品晋升策略
  • Emotion2Vec+ Large推理成本高?轻量化部署实战优化方案
  • 盘点吕梁geo品牌推广机构,太原富库geo优势显著值得关注