当前位置: 首页 > news >正文

GPT-5.5 Instant发布:人人免费,幻觉暴降52.5%

OpenAI正式发布更聪明且懂你的GPT-5.5 Instant,全面替代老版本成为默认选择。

新模型大幅降低了高风险领域的幻觉比例,回答更精简紧凑,同时能深度调用过往聊天记录和关联邮箱,为你提供量身定制的专属反馈。

回答更准更精简

GPT-5.5 Instant承担着上亿用户的日常问答需求。

新模型在各类学科领域给出的答案更严密,交流语气更自然。

在事实准确度方面,新版本有了显著提升,在要求最为严格的专业领域进步最大。

内部评估数据显示,在涵盖医学、法律、金融的高风险提示词测试中,GPT-5.5 Instant产生的幻觉声明比老版本GPT-5.3 Instant减少了52.5%。

在用户之前标记过事实错误的挑战性对话中,新模型将不准确声明的比例降低了37.3%。

新版本在应对日常任务时表现出更全面的能力。在视觉推理、数学和科学方面的评估上全面提升。

无论是分析用户上传的照片和图像,解答STEM(科学技术工程和数学)相关问题,还是判断何时调用网络搜索来提供有用答案,新模型的表现都更加出色。

面对复杂的数学题,新模型展现出强大的纠错能力。

官方展示了一道代数方程题的例子。

新模型起初可能赞同错误的解法,但随即将解答代入原方程进行检验。发现代入失败后,模型立刻定位到用户在移项时犯下的代数错误,改用求根公式计算出正确答案。

与之相比,老版本GPT-5.3 Instant同样能发现代入失败,却过早停止思考,草率得出无实数解的错误结论,完全没有回顾代数过程并重新求解。

除了算得更准,新模型的文字表达也更精炼。在保留亲和力与个性化语气的前提下,模型给出的回答直奔主题,保留了核心信息。

新版本去除了冗长毛病,减少了不必要的追问,抛弃了无意义的表情符号,排版更加清爽。

一个例子展示了GPT-5.5 Instant在不牺牲内容质量的情况下,使用的字数减少了26.6%,行数减少了36.4%。

老版本在处理同类提示词时,结构显得过于复杂,甚至会出现指出冗余问题的同时给出同样冗余的修改建议的情况。

记忆可控,真正懂你

个性化是新版本的另一项核心升级。

只要用户授权连接,模型就能高效利用过往聊天记录、本地文件以及Gmail(谷歌邮箱)中的上下文信息。

模型会自动判断何时需要引入个性化数据来提升回答质量,检索历史对话的速度大幅加快,免去了用户反复交代背景信息的麻烦。在获取量身定制的计划、继续推进未完成的工作时,这个特性的优势尤为明显。

例如,在提供出行或餐饮建议时,新老版本的表现截然不同。

老版本通常只能根据用户身处旧金山的基础定位,给出一些大而全的推荐。GPT-5.5 Instant则会深度检索用户之前的聊天记录和关联数据,结合用户日常喜好与品味,给出精准且高度个性化的深度推荐。

为了让个性化过程更加透明,OpenAI在所有ChatGPT模型中引入了Memory sources(记忆来源)功能。

用户可以通过全新的控制面板,清晰查看到底是哪些历史聊天记录或保存的记忆影响了当前的回答。发现过时或不相关的信息,用户随时可以进行删除或修改。

当你选择与他人分享某段对话时,记忆来源信息会被自动隐藏。用户对专属记忆库拥有完全控制权,可以选择删除不希望被引用的聊天记录,在设置面板中清理记忆项,或者直接开启不调用也不更新记忆的临时聊天模式。

只是目前的记忆来源面板,在设计上优先保证易读性,可能暂时无法穷举影响回答的所有因素。系统优先展示最相关的历史对话,后续还会持续优化显示面板,提供更全面的视图。

新版本全面开放

GPT-5.5 Instant已向所有ChatGPT用户陆续推送,人人免费,正式替代GPT-5.3 Instant成为默认模型。

在API中,新模型被命名为chat-latest。为了照顾付费用户的使用习惯,老版本将在配置设置中继续保留三个月,随后正式退役。

包含历史记录、文件与关联邮箱深度调用的增强版个性化功能,目前正优先向网页版的Plus和Pro用户推送,移动端即将上线。

未来几周内,该功能还将扩展至免费版、Go、Business和Enterprise用户。

记忆来源功能,将在所有网页端消费级套餐中全面铺开,移动端也指日可待。具体个性化数据源的可用性可能因不同地区而有所差异。

告别幻觉与废话,精准严密的推理与清爽懂你的交互,还免费,GPT-5.5 Instant又套牢了日常使用的普通用户。

参考资料:

https://openai.com/index/gpt-5-5-instant/

http://www.jsqmd.com/news/774531/

相关文章:

  • 2026不锈钢格栅板厂家推荐:热镀锌格栅板/踏步板靠谱厂家实力解析 - 栗子测评
  • 保姆级教程:用Python复现2023国赛A题塔式光热电站定日镜场建模与优化(附完整代码)
  • 项目生命周期可视化:基于Git历史构建可交互时间线的实践指南
  • 如何快速掌握美的智能设备本地控制:Midea AC LAN新手完整教程
  • 终极分屏游戏解决方案:一台电脑实现多人游戏狂欢
  • 新手必看:jquery-smooth-scroll核心功能与基础应用详解
  • JupyterLab-LSP 代码诊断与错误检查:提升代码质量的终极指南
  • IronEngine多角色AI助手架构设计与VRAM优化实践
  • Go语言高级编程:终极汇编代码生成与自动化开发指南
  • Vibe Draw最佳实践:从草图优化到3D场景构建的完整流程
  • 2026年比较好的郑州婚纱摄影套餐高评分公司推荐 - 品牌宣传支持者
  • gh_mirrors/in/invoice部署实战:从开发到生产环境的完整迁移指南
  • vscode-dark-islands的Markdown列表标记:色彩与样式优化
  • 铸铁系船柱哪家好?2026年铸钢系船柱源头厂家权威盘点与推荐:港盾工程领衔 - 栗子测评
  • OpenClaw-Capacities:开源多模态AI能力集成框架的设计与实战
  • Devon:AI驱动的研发智能体实战,重塑软件开发工作流
  • Transformers实战指南:从零构建NLP项目与Hugging Face应用
  • Python计算器项目实战:从表达式解析到AST构建与工程化部署
  • agent-skills中的缓存策略:有效提升应用响应速度的终极指南
  • 【AISMM模型实战指南】:预算规划如何借力AISMM实现ROI提升37%?
  • 如何快速构建Kubernetes中的HTML5解析服务:gumbo-parser完整指南
  • Newton多场景管理:同时运行多个独立仿真的方法
  • 基于Model Context Protocol的Eventbrite自然语言管理实战
  • vscode-dark-islands的代码镜头:色彩与可见性优化
  • LLMs-from-scratch-CN性能优化技巧:从FLOPS分析到高效注意力实现
  • 如何评估远程工作比例:选择最适合你的工作模式
  • 本地大语言模型Web UI部署指南:从API对接到界面定制
  • 终极Caffe与DIGITS环境搭建指南:快速开启机器学习之旅
  • 打破国外垄断!镜像视界TJ-3D引擎实现GIS/BIM/CIM/点云无缝融合
  • 解决Python报错 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte