AI 技术日报 - 2026-05-12
Top 10 AI 技术要闻
- 小米 MiMo 成为「爱马仕」Agent 全球调用第一贡献模型
据36氪报道,小米开源的 MiMo 模型在「爱马仕」(Hermes)Agent 生态中的全球调用量首次超越龙虾(Lobster)系列,成为排名第一的贡献模型。这标志着国产开源模型在 Agent 应用领域取得了里程碑式突破。MiMo 凭借高效的推理能力和优秀的指令遵循表现,在各类 Agent 工具调用场景中表现出色,为开发者提供了除 OpenAI、Anthropic 之外的高质量开源选择。该成绩也印证了中国 AI 厂商在 Agent 基础设施层面的竞争力正在快速提升。
链接:https://www.36kr.com/p/3802262491029252
- ClaudeBleed:Claude 浏览器扩展存在严重安全漏洞,任何扩展均可劫持
安全公司 LayerX 披露了一个影响 Claude 浏览器扩展的高危漏洞,命名为"ClaudeBleed"。该漏洞允许同一浏览器中的任何其他扩展程序劫持 Claude 的扩展会话,窃取对话内容或注入恶意指令。这一问题源于扩展间的消息传递机制缺乏足够的身份验证和隔离保护。对于在日常工作中同时使用多个浏览器扩展的 AI 开发者而言,这是一个不容忽视的安全风险。建议用户及时更新到最新版本并审查已安装的扩展列表。
链接:https://layerxsecurity.com/blog/a-flaw-in-claudes-browser-extension-allows-any-extension-to-hijack-it
- 240W 功耗 PCIe 加速卡挑战 Nvidia:用 DDR4 和 28nm 芯片本地运行 700B LLM
一家小型公司发布了一款引人注目的 PCIe AI 加速卡,仅消耗 240W 功耗就能在本地运行 700B 参数的大语言模型。其核心技术路线是利用已有十年历史的 DDR4 内存和 28nm 工艺芯片,通过大容量低带宽内存方案来容纳超大规模模型权重,从而绕开了对 HBM 高带宽内存的依赖。这种"反潮流"的硬件设计思路为本地化 AI 推理提供了一种全新的可能性,尤其适合对数据隐私要求高但 GPU 预算有限的场景。
链接:https://www.techradar.com/pro/tiny-company-steals-amds-thunder-and-challenges-nvidia-with-old-tech-pcie-ai-accelerator-that-runs-700b-llms-locally-sipping-just-240w-thanks-to-decade-old-ddr4-and-28nm-chips
- Gemini API 文件搜索正式支持多模态 RAG
Google 宣布 Gemini API 的文件搜索功能已全面支持多模态输入,开发者现在可以在 RAG(检索增强生成)流程中同时处理文本、图片、视频和音频等多种格式的文件。这一升级使 Gemini 成为首个原生支持多模态文件搜索的主流 AI API。开发者只需上传文件,系统即可自动提取多模态特征并建立索引,无需手动预处理。对于需要处理混合格式文档的企业级应用场景(如多模态知识库、智能客服),该功能大幅降低了开发复杂度。
链接:https://blog.google/innovation-and-ai/technology/developers-tools/expanded-gemini-api-file-search-multimodal-rag
- everything-claude-code:GitHub 热门的 Claude Code 全面使用指南
这个在 GitHub 上迅速走红的开源项目,汇集了 Claude Code(Anthropic 的 AI 编程 Agent)的完整使用指南与最佳实践。项目涵盖了从基础配置到高级工作流的方方面面,包括如何有效编写 CLAUDE.md 项目说明文件、如何利用 MCP(Model Context Protocol)扩展 Claude Code 的能力边界、以及如何在大型代码库中最大化 Agent 编程效率。对于正在评估或已经使用 AI 编程工具的开发者来说,这是一份极具实用价值的参考资料。
链接:https://github.com/affaan-m/everything-claude-code
- Show HN: Adola — 将 LLM 输入 Token 数量减少 70% 的优化方案
Adola 在 Hacker News 上展示了一种能够将 LLM 输入 token 数量削减 70% 的技术方案。其核心思路是通过对提示词和上下文进行智能压缩与缓存,在不损失输出质量的前提下大幅降低 token 消耗。对于使用 Claude、GPT 等按 token 计费的 API 用户,这意味着显著的成本节约。特别是在需要反复传递大量系统提示和上下文文档的 Agent 工作流中,token 优化带来的成本差异尤为明显。
链接:https://adola.app/signup
- 马斯克入局 AI 编程赛道:SpaceXAI 桌面编程应用 Grok Build 曝光
据报道,马斯克旗下 xAI 正在开发一款名为"Grok Build"的桌面编程应用,正式进军 AI 编程工具市场。该应用基于 Grok 模型,定位为独立的桌面端 AI 编程助手,将与 Cursor、Claude Code、GitHub Copilot 等现有工具展开竞争。随着 AI 编程赛道持续升温,各大 AI 厂商纷纷推出自己的编程 Agent 产品。Grok Build 的加入意味着这一领域的竞争将进一步加剧,开发者也将拥有更多选择。
链接:https://www.ithome.com/0/948/484.htm
- 阿里巴巴深度整合千问与淘宝,打造 AI 对话式购物体验
阿里巴巴宣布将深度整合其千问(Qwen)大模型与淘宝电商平台,推出 AI 对话式购物功能。用户可通过自然语言描述需求,由 AI Agent 完成商品搜索、筛选、比价和推荐的端到端购物流程。这是目前国内最大规模的 AI Agent 在消费电商领域的落地案例之一。该功能的核心在于利用 Qwen 的强大推理能力理解用户意图,并调用淘宝的搜索和交易 API 完成 Agent 自主操作,为"AI + 电商"模式提供了新的想象空间。
链接:https://www.ithome.com/0/948/468.htm
- Show HN: PerceptAI — 让 AI Agent 能够观察任何屏幕,不仅限于浏览器
PerceptAI 是一个新颖的开源项目,其核心能力是让 AI Agent 突破浏览器限制,能够"看到"并操作整个操作系统屏幕上的任何应用界面。与传统的浏览器自动化 Agent 不同,PerceptAI 使用系统级屏幕截取和视觉理解技术,可以处理桌面应用、终端、IDE 等任意 GUI 程序。这为构建真正通用的桌面自动化 Agent 奠定了基础,尤其适合需要跨应用协同操作的复杂工作流自动化场景。
链接:https://news.ycombinator.com/item?id=48085738
-
使用 Swift 训练 LLM:将矩阵乘法性能从 Gflop/s 提升至 Tflop/s
这篇技术博客详细记录了如何使用 Apple Swift 语言在 Mac 上训练大语言模型,并逐步将矩阵乘法运算性能从 Gflop/s 量级优化到 Tflop/s 量级的过程。作者深入探讨了 Metal 框架的 GPU 编程优化技巧,包括内存对齐、线程组配置和 kernel 融合等关键技术。对于希望在 Apple Silicon 上进行本地模型训练的开发者,这篇文章提供了从零开始的完整优化路径,也展示了 Swift 生态在 AI 基础设施层面的潜力。链接:https://www.cocoawithlove.com/blog/matrix-multiplications-swift.html
数据来源:TheAIEra News Hub
生成时间:2026-05-12 07:02:13
