当前位置: 首页 > news >正文

AI语音输入全面进步,BAT入局输入法,能否带来新体验?

阿里即将推出千问手机输入法

上周,《读佳》独家报道阿里千问团队即将推出一款手机输入法。不同于之前集成在千问PC端的桌面输入法组件,这次的千问输入法将是独立的手机APP。

BAT齐聚输入法市场

BAT(字节跳动、阿里巴巴、腾讯)都已入局输入法。微信输入法从两年前开始拥抱AI,今年围绕AI语音输入进行多轮重大更新。核心围绕语音输入的豆包输入法去年底率先上线手机端,半年后推出桌面端。千问上个月刚在千问PC端上线AI语音输入法,现在推出手机端也在情理之中,且产品核心围绕「语音输入」。

大厂为何重新做输入法

很多人疑惑,输入法早是成熟品类,九键、26键、双拼、五笔、手写等基本都有,搜狗、讯飞、百度等老玩家也经营多年,大厂真有必要重新做一遍吗?答案是有。两年前各大输入法接入大模型进行AI化尝试,塞入大量Chatbot上已有AI功能,但用户并不想使用塞满功能的输入法。而这一波「语音输入」返璞归真,回到「输入」方式和体验上,用AI再造输入法。

AI语音输入进步明显

一年之前,语音输入因识别效果问题容易劝退用户,只要错得频繁,用户就会重新拿起键盘。但现在情况改变,一方面是AI技术进步,语音识别和语言模型提升,很多豆包APP用户已体会到语音输入能满足AI交互输入要求。微信输入法从去年底iOS/Android端3.0.0更新开始,围绕「语音输入」优化迭代,最近一轮更新全平台版本再次升级语音输入大模型,支持自动去掉口水词、智能加标点/分段等特性。雷科技对豆包输入法、千问、搜狗输入法和Typeless四款桌面端AI语音输入工具做了横评,测试中豆包采用实时转写,基本能边说边出字,前面暂时识别错误的内容会随后文补充被修正;千问输出速度慢些,短文本需等待3到4秒,长文本等待5到6秒,但准确率、自然断句和口语规整表现不错。整体语音输入准确性大幅进步,覆盖桌面端和手机端。从个人使用来看,即便普通话不标准,大部分内容也能准确识别,错误识别频率低到不打断思路。大模型补上关键基础,现在的AI输入法开始理解整句话,能根据上下文纠正同音字,自动补标点、分段,去掉口头语,处理说话时的重复和自我修正。

语音输入优势明显

在AI技术进步基础上,语音输入优势诱人。首先是输入负担降低,打字需看键盘、选字、处理错别字,而说话更接近日常交流,尤其在户外走路时,差距更明显。效率优势也有研究验证,2016年斯坦福大学、百度等研究团队在实验室条件下比较手机语音和键盘输入,普通话语音录入速度约为每分钟123个词,拼音键盘约为43个词,前者接近后者的2.9倍。此外,语音输入(文字)比纯语音对接收端更「友好」,复杂输入时语音输入的效率和体验远优于纯语音,且打字和语音输入的错误都能方便修改。

豆包输入法仍有改进空间

豆包在中文语音输入、输出上优势大,在BAT三家中更早将优势转化到输入法的「语音输入」上,去年11月推出豆包输入法。但在「手机输入法」产品体验上,豆包输入法作为新兵有改进空间。对比微信输入法等成熟产品,豆包输入法虽基础功能、设置选项大差不差,有联想词推荐、剪贴板、验证码填充等功能,支持双拼,推出了桌面和手机双端,但缺少跨设备粘贴同步(包括个人词库、图片)和换机助手等功能。目前豆包输入法既没有微信输入法的匹配码机制,也没有其他主流输入法的账号体系。因此,仍主用微信输入法。

千问输入法值得期待

希望接下来上线的千问输入法APP有好的产品体验。千问在电脑端已证明语音输入优势,如果这些能力原样到手机端,千问输入法会有不错的入场券。但手机输入法不能只靠模型,手机和电脑的词库、常用语、剪贴板能否同步,语音启动速度,是否支持实时转写,长文本整理力度能否让用户选择,弱网和离线状态下能否稳定工作等,都影响输入法体验。技术提供可能性,最终用户体验要回到产品设计和细节上。前几年输入法AI化,很多产品从技术出发,把问答、翻译、写作、搜索和智能体塞进键盘,但输入法使用逻辑和AI聊天工具不同,用户唤起键盘大多只想快速写完一句话,能力可以很多,交互必须很轻,否则「全能」会变成臃肿。输入法是基础工具,有用和好用之间还有很多设计和细节。

大厂入局输入法的原因

字节、阿里、腾讯为何都来做输入法?从用户角度看不难理解。输入法离用户意图近,在微信聊天、淘宝搜索、钉钉办公、浏览器搜索、小红书评论、文档写作等场景,只要用户把想法交给手机,输入法就有机会出现,它能跨过几乎所有APP,是调用频率最高的系统入口之一。大模型加入让输入法能处理更靠近意图的内容,语音表达形式让入口获得更多原始信息。对于字节,豆包输入法可把豆包的模型能力带出豆包APP,进入更多场景;对于腾讯,微信输入法连接微信社交、搜狗输入法积累和混元模型,有现成用户和丰富中文交流场景;对于阿里,千问输入法有机会穿过电商、支付、地图、办公和内容创作,把千问从需主动打开的AI助手变成随时可调用的底层能力。语音输入已跨过「偶尔应急」阶段,但还替代不了所有键盘场景,办公室里不方便开口,密码和精确编辑仍适合手动操作,而在走路、快速回复和整理想法时,越来越不愿「古法手打」。那么,未来这些大厂的输入法能否给用户带来更好的体验呢?

http://www.jsqmd.com/news/1084041/

相关文章:

  • 记录分布式事务的实现方式和用法(有借助AI)
  • Web开发
  • Cesium 后期处理教程
  • 设计数据密集型应用第2版:2025-2026出版新书的《人月神话》引用(4)
  • 夏天总疲惫乏力、容易累、爱出汗的人,常喝这杯茶,养出元气满满好状态~
  • 【MATLAB】时变障碍物无人机动态规避仿真
  • Cesium 动态围墙教程
  • Oracle SQL Plus 如何不显示结果集 (TERMOUT OFF)
  • Karpathy LLM Wiki 完整原理与双方案部署教程(Cursor _ Claude 通用)
  • 【课程设计/毕业设计】基于 SpringBoot+Vue 的企业员工档案与人事考评系统的设计与实现 基于 SpringBoot 的智能化企业人事运维管理系统【附源码、数据库、万字文档】
  • 68元对标Claude Opus,豆包2.1 Pro性价比拉满,但能否留住用户仍待考验?
  • SDR++:如何用开源软件构建你的无线电频谱分析系统
  • 安卓木马滥用虚拟化技术劫持银行应用:原理、检测与防御
  • tiktoken:OpenAI模型Token精准计量与工程实践指南
  • 终极无广告体验:SpotifyPremium桌面版完整配置指南
  • 智谱市值破万亿:是资本游戏还是 AI 新范式?解禁后命运几何?
  • 体检门店销量榜诊断模型
  • 【PC】 Vutron音乐-高颜值免费音乐软件-畅听全网
  • ts3380,G3000,ix6780,MG3640,ix6700,ix6800,G5080,TS8380,ts8220报错5B00,P07,E08,1700,5b02废墨垫清零,亲测可用
  • 告别链接失效烦恼:百度网盘秒传脚本完全指南
  • 进销存软件不一定贵,但要看这几点
  • 鸿蒙语音识别的 Flutter ↔ ArkTS 完整调用链:权限申请、引擎生命周期与结果回传的时序问题
  • 中医药现代化研究,国自然申请书怎么写才能中?
  • 一台高配置图形工作站带10人SolidWorks画图的实施方案是怎样的
  • 别再浪费Token了!教你用企微回调接口,做个低成本的AI“语料传送带”
  • MusicBee-NeteaseLyrics:让本地音乐库重获网易云音乐歌词生态的智能插件
  • 2026干细胞研究获突破 关键基因机制阐明
  • 加权射影空间中行列式簇的度与正则性计算实战
  • 2026保姆级教程:免费好用手机抠图APP汇总,人像物品一键去除背景全指南
  • 跨平台网盘直链下载解决方案:高效解锁九大网盘文件下载