当前位置: 首页 > news >正文

Google用Gemini重新发明鼠标光标,AI人机交互迎来新变革!

初代鼠标:简单的追踪工具

1968年,在旧金山一场被称为「演示之母(The Mother of All Demos)」的发布会上,计算机科学家道格拉斯·恩格尔巴特拿出一个带两个金属轮子的木制小盒子,向世界介绍了鼠标。这是人类首次公开用鼠标牵引屏幕里的数字光标。此后几十年,鼠标光标几乎无处不在,成为人类进入数字世界最熟悉、也最沉默的向导。然而,在这半个多世纪里,计算机的算力、形态和应用场景几乎改头换面,鼠标光标的本质却几乎未变,它只知道自己停在屏幕上的坐标,却不理解指向的是什么,能做的也只是点击、拖拽等简单操作。

Google:用Gemini重新发明鼠标光标

今天,Google要用Gemini重新发明鼠标光标。在刚刚落幕的Android Show上,Google展示了围绕Android、AI与硬件生态的规划,其中一项名为「魔法指针(Magic Pointer)」的新功能,给古老的鼠标光标装上了「眼睛」和「大脑」。Google的意图是让未来的AI交互不再依赖冗长的提示词,只需像在现实生活中一样,指着屏幕说话即可。那么,当鼠标光标学会「看懂」屏幕,人机交互将走向何方?

当下AI工具的痛点:交互成本高

要理解这项技术的意义,需先看清当下AI工具的问题:交互成本高。过去几年,大语言模型能力提升,但使用门槛居高不下,用户需学习复杂的「提示词工程」,为简单需求写几百字小作文很常见。而且,典型的AI工具运行在独立网页或应用窗口中,频繁打断用户工作流,如在阅读PDF时让AI总结图表,需经历截图、保存、打开浏览器等繁琐操作,Google将这种跨应用操作称为「AI绕路(AI detours)」,它效率低下,还容易打断人们的「心流」。

Google的交互原则:保持心流

为此,Google提出「保持心流」的交互原则。在其实验性AI光标原型中,AI能力附着在鼠标光标上,无需记忆快捷键,只需「晃一下」鼠标,AI界面便会基于当前悬停内容自动浮现,给出操作建议。例如,选中图会询问是否「对比」,悬停于段落会提供润色方案,整个过程无需学习指令,跟着直觉走。

AI光标应用场景:直观且高效

第一,看图说话的终极形态。浏览卡通城市风景照时,传统鼠标只能点击放大,现在把AI光标悬停在建筑上,对着麦克风说话,AI光标就能理解指向的像素,识别元素并移动。过去鼠标只能告知点击位置,现在能告知指向内容。第二,少写提示词,多用自然指代。看到复杂烘焙菜谱,无需复制粘贴或写书面提示词,用光标高亮文字,随口说一句,AI就能直接改写菜谱。第三,将像素转化为可交互实体。AI光标能把屏幕上的像素转化为可交互实体,如在旅行Vlog中指向餐厅,视频画面会变成可交互地点并弹出订座链接;鼠标指向写满字的便利贴,墨迹会变成可打勾的To - Do List。以前是用户找AI,现在是AI顺着鼠标来到指尖。

回归人类直觉:杀死AI提示词

人类最强大的沟通工具是代词,在日常生活中,我们依赖「这个」「那个」,手势配合极简口语是高效沟通密码,因为我们共享视觉上下文。Google抓住这一点,提出拥抱「这」与「那」的力量的产品原则,让机器适应人类的「指手画脚」。目前,这套交互方式已开始落地,Chrome浏览器里的Gemini率先支持,Google全新推出的笔记本电脑产品线Googlebook将「Magic Pointer」内置进操作系统层面,覆盖所有应用。

Googlebook:打破生态壁垒

Googlebook被定义为「Android手机的完美伴侣」,用户可将Android应用无缝投射到Googlebook桌面,以原生比例运行,并在文件管理器中跨设备自由穿梭,打破手机、平板与笔记本的生态壁垒。此外,Gemini还能在桌面生成专属动态Widget。在硬件设计上,所有Googlebook机型都集成「Glowbar」发光条,与传统笔记本区分开来。首批Googlebook将由宏碁(Acer)、华硕(Asus)、戴尔(Dell)、惠普(HP)和联想(Lenovo)制造,预计今年秋天上市。有意思的是,三星缺席,近期消息显示,三星可能筹备搭载Google新系统的Galaxy笔记本,其下一场Unpacked发布会据传定在7月22日。至于底层驱动核心,种种迹象指向传闻已久的「Aluminum」系统,这意味着AI成为操作系统级别的基础设施。

AI人机交互:迎来十字路口

回望1968年的初代鼠标,功能简单,五十多年来虽有改进,但灵魂未变,无法理解坐标背后的意义。Google的AI光标完成了交互史上罕见的进化,它不仅知道位置,更知道指向的是什么。过去一年,创业公司疯狂卷对话框拟真度和Agent工作流,但Google用行动证明,最好的科技应润物细无声,聊天框不是AI的最终形态,最好的AI应成为附着在日常动作上的基础设施。从命令行到鼠标点击,再到触屏滑动,大语言模型曾让我们倒退回打字交流时代,引发Prompt焦虑症,但现在我们知道那只是弯路。真正好用的AI要学会像人类一样思考,理解人类的眼神和话语。58年前,道格拉斯·恩格尔巴特的梦想是「增强人类的智慧」,58年后,AI附身鼠标光标,机器开始真正「看懂」世界,提示词工程师的时代终将落幕,人机交互将向前迈出历史性的一大步。

http://www.jsqmd.com/news/825184/

相关文章:

  • 基于Java的养老服务平台代码讲解文档
  • 带电作业机器人安全遥操作系统【附代码】
  • 嵌入式开发利器:nanoclaw极简命令行解析器设计与实战
  • 嵌入式图形交互应用开发:基于状态机与Displayio的桌面宠物猫实现
  • 科技赋能应急救援 智慧守护平安防线——黎阳之光助力国家消防救援局数字化建设
  • ChatGPT镜像服务器一键部署:构建稳定AI网关的完整指南
  • 物联网通信协议选型:从HTTP/REST到MQTT的实战解析
  • Spring Boot + HikariCP 生产级最佳实践:原理、架构、调优、监控与高并发实战
  • 基于Dify快速构建智能聊天机器人:从部署到深度定制实战指南
  • 基础设施测试:构建可靠的云原生基础设施验证体系
  • Windows 安装部署 Hermes Agent 喂饭级教程
  • Vibe-Coder:打造高效愉悦的开发环境与工作流
  • iPhone 13到手别急着拆!保姆级验机避坑指南(含序列号查询、屏幕检测、配件真伪辨别)
  • 紧急预警:传统质性分析方法正面临AI替代临界点——人类学者必须掌握的NotebookLM防御型研究法
  • RK3576音频子系统深度解析:从I2S/TDM接口到ALSA驱动配置实战
  • c++6级题之筛选法求质数
  • 基于CircuitPython与BLE HID打造自定义无线键盘:从硬件到代码全解析
  • 2026年5月股权纠纷律师上榜推荐:专业精通,靠谱破局 - 外贸老黄
  • 如何详细理解 Git 工作原理?
  • MySQL实现跨库在线迁移的方法_利用Binlog实时数据同步工具
  • Mali-G625 GPU性能计数器解析与移动图形优化
  • HTML 教程
  • 开源创富的三大支柱:技术、流量与商业化的完美结合
  • 室内移动机器人混合路径规划【附代码】
  • 2026年近期厦门极压齿轮油服务商综合实力推荐 - 2026年企业推荐榜
  • 基于ESP32与I2S的3D打印蓝牙音箱:从硬件设计到软件实现全解析
  • 从源码到应用:VTK编译与配置全流程实战
  • MySQL UPDATE 条件升级导致的事故
  • 控制理论实践:从PID到MPC的Python实现与仿真调试
  • Redis怎样节省海量状态存储内存_利用Bitmap结构替代传统String存储