当前位置: 首页 > news >正文

Gemini 2.5原生音频技术与多模态能力解析

Gemini 2.5的原生音频能力

Gemini自设计之初便是多模态的,原生理解并生成文本、图像、音频、视频和代码内容。近期发布的Gemini 2.5在AI驱动的音频对话和生成方面取得了显著进展。

这些模型正被用于为全球用户带来音频体验,覆盖众多产品、原型和语言。NotebookLM的“音频概述”和Project Astra只是其中的两个例子。以下是对Gemini 2.5原生音频能力的详细解析。

实时音频对话

人类的对话丰富且微妙,意义不仅通过内容传达,还通过语调、口音甚至非语音的发声(如笑声)来传递。我们相信对话将成为与AI交互的关键方式。因此,Gemini直接在音频中进行推理和语音生成,实现高效、实时的沟通。

原生音频对话与Gemini 2.5 Flash预览版功能:

  • 自然对话:提供高质量语音交互,具备更恰当的表现力和韵律(节奏模式),并具有极低延迟,可实现流畅对话。
  • 风格控制:使用自然语言提示,可以调整对话中的表达方式,引导其采用特定口音、产生一系列语调和表情,甚至能实现耳语。
  • 工具集成:Gemini 2.5能在对话中使用工具和函数调用。这使其能够整合来自像某中心搜索等来源的实时信息,或使用开发者自定义的工具,使对话更加实用。
  • 对话上下文感知(主动音频):系统经过训练,能够识别并忽略背景语音、环境对话和其他无关音频,在适当时候做出回应。本质上,它理解何时不该说话。
  • 音视频理解:凭借对音频和视频流的原生支持,Gemini 2.5可以与你讨论它在视频流或屏幕共享中看到的内容。
  • 多语言性:可使用超过24种支持的语言进行对话,甚至可以在同一句话中轻松混合多种语言。
  • 情感对话:Gemini 2.5能够响应用户的语调,识别到相同词语以不同方式说出可能导致完全不同的对话。
  • 高级思维对话:Gemini的推理能力可以增强其对话表现,从而在所有功能上带来整体性能提升。这使得交互更加连贯和智能,特别是在复杂的推理任务上。

可控文本转语音 (TTS)

文本转语音技术正在快速发展。借助最新模型,我们正超越单纯的自然度,实现对生成音频前所未有的控制。现在,你可以生成从简短片段到长篇叙述的任何内容,精确地规定风格、语调、情感表达和表演方式——所有这些都可以通过自然语言提示来引导。

其他控制功能与能力包括:

  • 动态表演:这些模型可以为从诗歌到新闻报道再到引人入胜的故事讲述等各种内容带来富有表现力的朗读。它们还可以应要求以特定的情感进行表演并产生特定口音。
  • 增强的语速和发音控制:控制语速,并确保更高的发音准确性,包括特定词汇。
  • 多说话人对话生成:该模型可以从文本输入生成双人“NotebookLM风格”的音频概述,通过对话使内容更具吸引力。
  • 多语言性:利用Gemini 2.5轻松创建多语言音频内容,提供对超过24种语言的相同支持。

对于可控语音生成 (TTS),对于复杂的提示任务,可选择Gemini 2.5 Pro预览版以获得顶尖质量;对于日常成本敏感型应用,可选择Gemini 2.5 Flash预览版。这使得开发者能够动态为公告、故事、播客、视频游戏等创建音频。

安全性与责任

我们在这些原生音频功能的开发过程每个阶段都主动评估了潜在风险,并运用所学知识制定缓解策略。我们通过严格的内部和外部安全评估(包括全面的红队演练以确保负责任部署)来验证这些措施。此外,模型的所有音频输出都嵌入了我们的水印技术SynthID,以确保透明度,使AI生成的音频可被识别。

面向开发者的原生音频能力

我们正在为Gemini 2.5模型引入原生音频输出,通过Gemini API在某机构AI Studio或某机构平台,为开发者提供构建更丰富、更具交互性应用的新能力。

开发者可以开始在Google AI Studio的流式标签页中,使用Gemini 2.5 Flash预览版尝试原生音频对话。可控语音生成 (TTS) 已在预览阶段提供给Gemini 2.5 Pro和Flash版本,可通过在Google AI Studio的生成媒体标签页中选择语音生成功能来使用。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/65573/

相关文章:

  • 实用指南:多种时间序列预测算法的MATLAB实现
  • [开源项目] 蜜蜂记账 v2.2 发布:暗黑模式、标签系统、预算管理等 10+ 新功能
  • 12 月记录
  • 嵌入式软件架构--多窗口表明1(后台软件实现)
  • 【09】Word文档处理工具
  • 谁在主导“芯片战争”
  • 定制化 Live555 实战:按需开发低耗 RTSP 服务器,完美适配 C# 项目 - 源之缘
  • KEIL5软件查看函数最大调用深度12.7
  • 2025深圳CNC加工实力榜:金丰业五金塑胶以精密智造领跑,六家本土技术标杆企业核心优势深度解析
  • Day13-20251207
  • 一些复数的有趣的恒等式
  • DeepSeek-OCR 模型的下载
  • DeepSeek-OCR 模型的下载
  • C# 与 .NET 跨平台制作实战(第一章:开发环境搭建与.NET概述-上篇)
  • 2025散热风扇厂家实力排行榜:万航电子以智能温控技术领跑,六家高潜力本土品牌深度解析
  • AI 清洁管理系统:响应 3 秒,人力成本降低 42%
  • 2025东莞力利机械压铸设备实力榜:六家国产技术代表企业,热室与冷室压铸机核心优势深度解析
  • 岐金兰意义行为原生理论与AI元人文价值操作系统研究
  • virtualbox+ubuntu+vscode+ssh pwn环境配置
  • Maven 多模块项目与 Spring Boot 结合指南 - 教程
  • 2025砂面粉厂家实力榜:思洛尔新材料以纳米级球形蜡粉领跑,六家高潜力国产技术代表企业深度解析
  • 2025东莞包装材料厂家实力榜:共晟包装以可降解防静电技术领跑,八大环保纸袋品类深度解析
  • chat2db邀请码
  • 2025 最新高端艺术漆品牌 TOP10推荐!技术创新 + 美学表达权威榜单发布,重新定义墙面装饰新高度,行业专业数据,行业口碑榜及选择指南
  • 《密码系统设计》第十一周预习报告
  • 2025防水织带厂家实力榜:东莞市永沣织带以创新飞织技术领跑,六大高潜力本土品牌核心优势深度解析
  • 《密码系统设计》第十二周预习报告
  • 2025康明斯发电机组实力榜:广东三澳新能源科技领衔,六家高潜力本土品牌深度解析
  • 2025东莞汉高实业除蜡水厂家实力榜:六家国产技术代表企业的不锈钢金属工业清洗核心优势深度解析
  • 2025吹塑制品厂家实力榜:东莞石排盛林塑胶厂以精密中空吹塑领跑,六大高潜力本土品牌核心优势深度解析