当前位置: 首页 > news >正文

GPT - 5.4 Thinking:强大推理背后的喜与忧

GPT - 5.4 Thinking:专为复杂思考而生

上周,OpenAI 发布了 GPT - 5.4 Thinking,这并非普通的 ChatGPT 渐进式更新,而是直接从 5.2 跳到 5.4,且未推出通用版本。该模型专为处理更复杂思考和挑战而设计,认知能力更强,可用于编程工具 Codex、API 以及付费的 ChatGPT 计划。

图像与格式处理:GPT - 5.4 Thinking 的明显短板

在测试中,GPT - 5.4 Thinking 的图像生成能力欠佳。如在“空中航母”测试里,无论是最初按提示生成图片,还是根据设计方案再次生成图像,都未能满足要求,即便给出详细图像规格也无改善。在格式处理方面,它喜欢用很长的编号列表,即便按要求优化,效果仍不理想。例如在“波士顿科技与历史旅行行程”测试中,最初的行程规划格式就存在问题,优化后也不尽如人意。

强大推理能力:深度分析的利器

GPT - 5.4 Thinking 具备强大的推理能力,在一些测试中表现出色。在“社交媒体对社会的影响”测试中,它对问题进行了深入分析,先给出总结,称社交媒体对社会交流既有改善也有恶化,接着进行了 1300 字的详细分析,并在追问如何应对影响时,也给出了有说服力且合理的答案。在“空中航母”设计分析中,它能从工程学角度给出合理理由,说明某些设计不可行。

答非所问:使用体验的一大困扰

该模型存在一个严重问题,即有时会回答非所问的问题。在“用教育建构主义解释 GPT - 5.4”测试中,提示词要求通过“实践”活动来解释,但它却生成了一篇论述 GPT - 5.4 Thinking 如何支持建构主义的论文,完全没有体现“通过实践学习”。这就像政治候选人在辩论中不回答问题,只是背诵自己的观点,容易让人被其内容吸引却偏离问题本身。

编辑观点:GPT - 5.4 Thinking 推理能力强大,但图像与格式处理差、答非所问问题突出。若 OpenAI 能解决这些问题,其在复杂任务处理上潜力巨大,否则将影响用户体验和商业化前景。

http://www.jsqmd.com/news/495073/

相关文章:

  • 前端命名规范:变量 / 函数 / 组件 / 文件 统一标准,告别混乱命名|项目规范篇
  • B2405LS-1WR3兼容优选DB1-24S05LS,工业模块电源性能解析
  • Linux 命令:vgcreate —— 创建 LVM 卷组
  • 【数据结构与算法】7_python版 _搜索
  • 工程文件+文档中的电路设计细节及其子模块功能解析——带隙基准、温度保护电路等多功能防护的综合运用
  • 从像素到智能:图像处理与计算机视觉全景解析
  • 分析园林水景实用性,2026年南安万磊石业表现出色 - 工业品网
  • ROS2导入魔力元宝服务组模型
  • LeetCode 热题 100 -- 128、最长连续序列
  • 探寻黑龙江装修公司,鲨鱼速装售后有保障吗?怎么选择 - 工业品牌热点
  • MySQL 索引失效场景总结:面试必问的 10 种情况,你踩过几个?
  • OpenClaw 解决运行一些漏洞
  • 二氢视黄醛价格
  • 大模型Agent生态全景解析(非常详细),LLM MCP Skills技术逻辑从入门到精通,收藏这一篇就够了!
  • HTML、CSS、JavaScript与图片在网页构建中的关联与区别
  • B端拓客号码核验:困境剖析与技术破局路径氪迹科技法人股东号码核验系统
  • 小程序毕业设计-基于微信小程序的个人财务管理系统设计与实现
  • 亲测储能电源厂家,我的采购复盘
  • 2026年,银川装饰装修公司哪家好?业主实测本地top3自营团队,避坑指南+精准选择攻略 - 宁夏壹山网络
  • 循环神经网络的问题:梯度消失与梯度爆炸|Problems with RNNs: Vanishing and Exploding Gradients
  • 万字长文详解网络安全知识库:从零基础到入门必备指南
  • 北京上门回收红酒拉菲,京城亚南酒业,专业高价,上门便捷 - 品牌排行榜单
  • tg内容下载
  • Gemini3 AI辅助教学,轻松实现各种教学课件!
  • 【亲测好用】指标体系平台能力演示
  • 2026年鞍山有影响力的民事律师哪家强,专业分析 - 工业设备
  • SSH安装与配置步骤
  • 2026年上海财税机构推荐:“代理记账+注册公司” 一体化服务
  • NTU 提出 OrchMAS:动态多专家协同的科学推理多智能体框架
  • 2026年鞍山热门离婚律师推荐,专业处理离婚的律师排名揭晓 - myqiye