当前位置: 首页 > news >正文

Gemma 3n:面向移动设备的强大AI模型

面向移动优先的强大、高效AI:Gemma 3n预览版发布

继成功推出Gemma 3和Gemma 3 QAT(能够在单个云端或桌面加速器上运行的最新式开放模型系列)之后,团队正进一步推动可访问AI的愿景。现在,这一愿景被扩展到了能够在日常设备(手机、平板和笔记本电脑)上直接运行的、高能力的实时AI。

为了驱动下一代设备端AI,并支持多样化的应用(包括提升Gemini Nano的能力),一个全新的先进架构被设计出来。这一代基础架构是与移动硬件领导者(如某高通技术公司、某联发科公司和某三星电子系统LSI业务部门)紧密合作创建的,并针对闪电般的多模态AI进行了优化,旨在设备端实现真正个性化和私密的体验。

Gemma 3n是基于这一突破性共享架构的首个开放模型,使开发者能够通过早期预览版开始试验这项技术。同样的先进架构也为下一代Gemini Nano提供了动力,后者将把这些能力带给Google应用和其设备端生态系统中的广泛功能,并计划于今年晚些时候推出。Gemma 3n使开发者能够基于这个未来将登陆Android和Chrome等主要平台的基础开始构建应用。

关键技术:逐层嵌入与内存优化

Gemma 3n利用了Google DeepMind的一项创新技术,称为逐层嵌入(Per-Layer Embeddings, PLE)。该技术显著降低了内存使用。尽管原始参数规模为5B和8B,但PLE技术使得这些较大的模型能够在移动设备上运行,或从云端实时传输,其内存开销仅与2B和4B模型相当。这意味着模型可以仅用2GB和3GB的动态内存运行。

通过探索Gemma 3n,开发者可以提前预览该开放模型的核心能力,以及未来将通过Gemini Nano在Android和Chrome上提供的移动优先架构创新。

Gemma 3n的核心能力

Gemma 3n专为快速、低占用、在本地运行的AI体验而设计,主要提供以下能力:

  • 优化的设备端性能与效率:相比Gemma 3 4B版本,Gemma 3n在移动设备上的初始响应速度提高了约1.5倍,同时质量显著提升。通过逐层嵌入、KVC共享和先进的激活量化等技术,实现了内存占用的降低。
  • 多模型合一灵活性:该模型原生包含一个嵌套的最新式2B内存占用子模型(得益于MatFormer训练)。这允许开发者在运行时动态地在性能和效果之间进行权衡,而无需托管多个独立模型。Gemma 3n中还引入了“混合匹配”(mix’n’match)功能,可以从4B模型中动态创建最适合特定用例及其相关效果/延迟权衡的子模型。
  • 隐私优先与离线可用:本地执行支持尊重用户隐私且即使没有网络连接也能可靠运行的功能。
  • 扩展的多模态理解(含音频):Gemma 3n能够理解并处理音频、文本和图像,并提供了显著增强的视频理解能力。其音频能力使模型能够执行高质量的自动语音识别(转录)和翻译(语音到翻译文本)。此外,该模型可以接受跨模态的交错输入,从而理解复杂的多模态交互。
  • 改进的多语言能力:多语言性能得到提升,特别是在日语、德语、韩语、西班牙语和法语方面。在WMT24++(ChrF)等多语言基准测试中取得了50.1%的良好成绩。

解锁全新的移动端体验

Gemma 3n将赋能新一代智能移动端应用,使开发者能够:

  1. 构建实时、交互式的体验,理解和响应用户环境中的实时视觉和听觉线索。
  2. 通过结合音频、图像、视频和文本输入,实现更深层次的理解和上下文文本生成——所有处理均在设备端私密进行。
  3. 开发以音频为中心的先进应用,包括实时语音转录、翻译和丰富的语音驱动交互。

负责任的开发

与所有Gemma模型一样,Gemma 3n经历了严格的安全评估、数据治理,并根据安全政策进行了微调对齐。

开始体验Gemma 3n预览版

即日起可通过预览版开始体验:

  • 初始访问(现已提供)
    • 基于云的探索:在浏览器中通过Google AI Studio直接试用Gemma 3n,无需任何设置。可立即探索其文本输入能力。
    • 设备端开发:对于希望将Gemma 3n集成到本地的开发者,Google AI Edge提供了相应的工具和库。即日起即可开始使用其文本和图像理解/生成能力。

Gemma 3n标志着向普及尖端、高效AI迈出的新一步。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/413983/

相关文章:

  • 盘点合肥靠谱的短期美容培训学校,推荐几家优质品牌 - 工业设备
  • Fansly Downloader:实现媒体资源本地化管理的高效解决方案
  • 动物森友会存档编辑神器:NHSE零基础掌握高级数据修改技巧
  • 跨平台解决方案:轻量级工具wechat-need-web实现企业级无安装部署微信访问
  • 世界上没有任何一种文字能够像汉字一样,用 5 个基本元素撑起一个 5000 年不断的伟大文明!
  • 【认知雷达专栏】认知雷达波形设计与优化研究进展
  • 3.3 对话能力集成:多轮对话管理与上下文持久化实现
  • 如何实现健康数据跨平台高效同步?揭秘Zepp Life自动化解决方案
  • E-Hentai批量下载利器:如何实现图库资源的高效获取与管理
  • 宝安吸塑工厂哪家靠谱,深圳、佛山、广州地区推荐吸塑源头厂家 - mypinpai
  • 转行风口上的AI大模型开发,能不能挽救我的职业生涯?
  • 破局NCM格式限制:ncmdump工具让音乐文件重获跨设备自由
  • 应对PTC合规审查的Creo专项准备工作
  • 智能同步:健康数据管理新方案解决多平台同步难题的高效管理工具
  • IDEA隐秘阅读工具:在编程环境中实现工作与休闲的无缝平衡
  • 2026年新型撤离舱品牌哪家强?热门品牌大比拼,目前撤离舱忠军装备市场认可度高 - 品牌推荐师
  • 联发科底层访问技术革新:MTKClient赋能嵌入式开发与硬件调试
  • 开发效率工具:IDEA多任务处理插件全解析
  • HexFiend二进制编辑全攻略:从零基础到企业级应用
  • 函数模板也可以重载
  • 春晚19亿次互动封神!这4本书,教你吃透“国民级AI”的全部实力
  • 番茄小说下载器:构建个人数字书库的开源解决方案
  • 构建可信的AI:大模型防幻觉、防逻辑错误与常识错误的Prompt工程指南
  • .NET MVC项目如何优化军工领域视频文件夹的断点续传组件开发?
  • 函数模板与类模板
  • 如何突破SketchUp模型的3D打印技术瓶颈?
  • PCL-CE社区版:重新定义Minecraft启动体验的三大核心功能解析
  • 应用商店已死?Karpathy 预言:AI 时代,软件将为你一人定制
  • MAA助手:解放双手的明日方舟自动化解决方案
  • 国产化ASP.NET Core如何设计金融行业多文件分块上传的秒传校验逻辑?