当前位置：首页 > news >正文

ChatGPT：如何做到常识推理

news 2026/7/12 10:09:23

先做一道题。

“一个人，把雨伞落在了出租车上。他下车的时候，外面正在下雨。请问，他接下来，最可能做什么？”

你，几乎不需要思考，

就能回答：

他会想办法找到那辆出租车，

或者，去买一把新伞，

或者，在门口等雨停，

或者，借一把伞。

你，怎么知道这些？

因为你知道：

雨伞，是用来挡雨的。

下雨天，没有伞，会被淋湿。

被淋湿，是不舒服的。

所以，他会想办法，解决这个问题。

这，就是常识推理。

你，用了不到一秒钟。

但这一秒钟里，

你的大脑，

调用了无数条隐性的知识，

完成了一个复杂的推理过程。

现在，问题来了：

ChatGPT，是怎么做到这件事的？

常识推理，到底难在哪里

常识，是冰山水下的部分

人类的语言，

就像一座冰山。

水面上的部分，是说出来的话。

水面下的部分，是没有说出来的常识。

"他饿了，去了厨房。" 这句话，只有八个字。 但理解这句话，需要知道： - 饿了，需要吃东西。 - 吃东西，需要食物。 - 厨房，是存放和准备食物的地方。 - 所以，饿了去厨房，是合理的行为。 - 他去厨房，是为了找食物，或者做食物。

这些知识，

没有人在这句话里说出来。

但理解这句话，

必须知道这些。

这，就是常识。

常识，是无穷无尽的

人类的常识，

涵盖了生活的方方面面。

物理常识： 重的东西，会往下掉。 火，是热的。 水，往低处流。 生物常识： 人，需要吃饭、喝水、睡觉。 动物，会感到疼痛。 植物，需要阳光和水。 社会常识： 医生，是治病的。 学校，是学习的地方。 朋友，是互相帮助的。 心理常识： 人，在失去重要的东西时，会难过。 人，在被赞美时，会高兴。 人，在危险时，会害怕。 因果常识： 下雨，地面会湿。 努力学习，成绩会提高。 不睡觉，会困。

这些常识，

没有人系统地整理过，

没有人完整地写下来过。

它们，存在于每一个人的脑子里，

以一种隐性的、分散的方式。

常识，是机器最难学的东西

正因为常识，

是隐性的，是分散的，是无穷无尽的，

所以，让机器学会常识，

是人工智能领域，

最困难的问题之一。

早期的人工智能，

试图手工编写常识规则。

规则1：如果下雨，地面会湿。 规则2：如果地面湿，走路要小心。 规则3：如果没有伞，下雨会被淋湿。 ...

但常识，是无穷无尽的。

你写了一万条规则，

还有一百万条，没有写。

这条路，走不通。

ChatGPT 的常识推理：从海量文本中涌现

核心思想：读遍人类的文字

ChatGPT，用了一种完全不同的方法。

它，不手工编写规则。

它，读遍了人类写下的几乎所有文字。

新闻，小说，教科书，论文，

博客，论坛，对话，百科全书。

几乎涵盖了人类所有的书面知识。

在这个过程中，

常识，自动地，

从海量文本里，

涌现出来了。

为什么读文字，能学到常识

这是一个深刻的问题。

文字，是人类记录世界的方式。

人类，在写作的时候，

会把自己的常识，

隐性地，编码进文字里。

"他饿了，去了厨房， 打开冰箱，发现里面空空如也， 叹了口气，决定出去吃饭。" 这段文字，隐含了大量的常识： - 饿了，要找食物。 - 厨房，是找食物的地方。 - 冰箱，是存放食物的地方。 - 冰箱空了，意味着没有食物。 - 没有食物，可以出去吃饭。 - 叹气，表示失望或无奈。

ChatGPT，读了无数篇这样的文字，

从中，提取出了隐含的常识。

这个过程，

不是人工设计的，

而是，自动涌现的。

ChatGPT 常识推理的具体机制

机制一：模式识别与泛化

ChatGPT，在训练过程中，

看到了无数个常识推理的例子。

例子1： "天气预报说明天下雨， 她提前把晾在外面的衣服收了进来。" 隐含常识：下雨会把衣服淋湿， 所以要提前收衣服。 例子2： "他发现钱包不见了， 赶紧打电话挂失银行卡。" 隐含常识：钱包丢了，银行卡可能被盗用， 所以要挂失。 例子3： "孩子发烧了， 妈妈立刻带他去医院。" 隐含常识：发烧是生病的症状， 生病了要去医院。

看了无数个这样的例子，

ChatGPT，学会了常识推理的模式：

原因 → 结果，问题 → 解决方案，状态 → 行动。

当遇到新的情况，

它，能把学到的模式，

泛化到新的场景里。

机制二：因果链推理

ChatGPT，能进行多步的因果推理。

问题：如果一个城市突然停电， 会发生什么？ ChatGPT 的推理链： 第一步：停电的直接影响 - 灯光熄灭，室内变暗 - 电器停止工作 - 电梯停运 第二步：连锁影响 - 灯光熄灭 → 夜间行动困难 - 电器停止 → 冰箱里的食物开始变质 - 电梯停运 → 高层住户无法正常出行 - 交通信号灯停止 → 交通混乱 第三步：更深层的影响 - 医院的医疗设备可能受影响 （但医院通常有备用发电机） - 工厂停产 - 通信基站可能断电，影响手机信号 第四步：人们的应对行为 - 点蜡烛或使用手电筒 - 减少不必要的外出 - 购买食物，以防冰箱里的食物变质 - 联系电力公司了解情况

这种多步推理，

需要大量的常识支撑。

ChatGPT，能把这些常识，

串联成一条推理链。

机制三：反事实推理

ChatGPT，能进行"如果……会怎样"的推理。

这种推理，

需要想象一个不存在的情况，

然后，基于常识，推断结果。

问题：如果人类没有发明文字， 世界会是什么样子？ ChatGPT 的反事实推理： 文字的作用： - 记录信息，跨越时间传递知识 - 跨越空间传递信息 - 积累和传承文明 没有文字的影响： 知识传承方面： 所有知识，只能靠口耳相传。 每一代人，都要重新学习， 无法站在前人的肩膀上。 科学、技术的发展，会极其缓慢。 社会组织方面： 无法制定和记录法律。 大规模的社会组织，几乎不可能。 国家，可能无法形成。 文化方面： 没有书籍，没有历史记录。 文化，只能在小范围内传播。 人类文明，可能停留在部落阶段。 结论： 没有文字，人类文明， 可能还停留在石器时代。 文字，是人类最重要的发明之一。

机制四：类比推理

ChatGPT，能通过类比，

把一个领域的常识，

迁移到另一个领域。

问题：学习编程，和学习一门外语， 有什么相似之处？ ChatGPT 的类比推理： 相似点1：都有基础语法 外语：主谓宾、时态、语态 编程：变量、函数、循环、条件 相似点2：都需要大量练习 外语：多说多写，才能流利 编程：多写代码，才能熟练 相似点3：都有"语感" 外语：熟练后，能感觉到哪句话"听起来对" 编程：熟练后，能感觉到哪段代码"写得好" 相似点4：都需要沉浸式学习 外语：最好的方法，是在使用中学习 编程：最好的方法，是做真实的项目 相似点5：都有"方言" 外语：英语有美式、英式、澳式 编程：Python、Java、C++，各有风格 结论： 学编程，就像学外语。 不要只背语法，要多"说"（写代码）。 沉浸在真实的项目里， 比死记硬背，有效得多。

常识推理的实际案例

案例一：日常生活推理

用户：我把钥匙锁在车里了， 现在在停车场， 我应该怎么办？ ChatGPT 的常识推理： 理解情况： - 钥匙在车里，车门锁着 - 用户在停车场 - 用户需要进入车内 可能的解决方案： 方案1（最推荐）： 联系道路救援服务。 大多数汽车保险，包含道路救援。 专业人员，能安全地开锁，不损坏车辆。 方案2： 联系汽车经销商或4S店。 他们，可能有备用钥匙， 或者能提供开锁服务。 方案3： 如果有备用钥匙， 联系家人或朋友， 让他们把备用钥匙送来。 方案4（不推荐）： 自己尝试开锁。 可能损坏车辆， 而且，在公共场所撬车， 可能引起误会。 注意事项： 如果车内有儿童或宠物， 这是紧急情况， 应立即拨打119或110。 建议： 以后，可以把备用钥匙， 放在家里或交给信任的人保管。

案例二：社会情境推理

用户：我在会议上， 提出了一个建议， 但老板当场否定了， 还说我没有考虑全面。 我很委屈，怎么办？ ChatGPT 的常识推理： 理解情境： - 用户的建议被否定 - 否定方式，让用户感到委屈 - 涉及职场关系 情感层面： 被当众否定，确实让人难受。 这种感受，是完全正常的。 先允许自己有这种情绪。 理性分析： 可能的情况1：老板的否定，有道理 冷静下来，重新审视自己的建议， 是否真的有考虑不周的地方？ 如果有，这是一个学习的机会。 可能的情况2：老板的否定方式，不妥当 即使建议有问题， 当众否定，也不是好的管理方式。 但在职场，这种情况，并不罕见。 建议的行动： 短期： 不要在情绪激动时，做任何反应。 给自己一些时间，冷静下来。 中期： 找一个合适的时机， 私下和老板沟通， 了解他的具体顾虑是什么。 这样，既能学到东西， 也能展示你的成熟和专业。 长期： 在提建议之前， 多做准备，考虑更多角度， 预判可能的质疑，提前准备回应。

案例三：科学常识推理

用户：为什么夏天， 深色衣服比浅色衣服， 更让人感到热？ ChatGPT 的常识推理： 核心原理：光的吸收与反射 深色衣服： 深色，吸收更多的光能。 光能，转化为热能。 所以，深色衣服，吸收更多热量， 让穿着者感到更热。 浅色衣服： 浅色，反射更多的光能。 吸收的热量，更少。 所以，浅色衣服，让穿着者感到更凉爽。 延伸推理： 为什么沙漠地区的人， 传统上穿白色长袍？ → 白色反射阳光，减少热量吸收。 → 长袍覆盖全身，减少皮肤直接暴露在阳光下。 为什么北极熊的毛，是白色的？ → 白色，在雪地里，起到伪装作用。 → 但也有研究认为， 北极熊的毛，实际上是透明的， 白色是光线散射的结果。 实际建议： 夏天，选择浅色、宽松的衣服， 能有效减少热量吸收， 让你感到更凉爽。

常识推理的局限性

ChatGPT 的常识推理，

已经非常强大。

但它，还有明显的局限性。

局限一：常识的边界

ChatGPT 的常识，

来自训练数据。

训练数据里，没有的常识，

它，可能不知道。

非常小众的领域， 非常特殊的文化背景， 非常新的社会现象， ChatGPT 的常识推理， 可能不够准确。

局限二：常识的偏见

训练数据，来自人类写的文字。

人类的文字，有偏见。

ChatGPT，可能学到了这些偏见。

某些文化的常识， 在训练数据里，覆盖更多。 某些文化的常识， 在训练数据里，覆盖更少。 ChatGPT，对不同文化的常识， 理解深度，可能不一样。

局限三：常识推理的错误

ChatGPT，有时候，

会做出错误的常识推理。

用户：一个人，在沙漠里迷路了， 他找到了一个仙人掌， 他应该喝仙人掌里的水吗？ 错误的常识推理： 仙人掌里有水， 在沙漠里缺水， 所以，应该喝仙人掌里的水。 正确的常识推理： 仙人掌里的液体， 含有大量的草酸和其他化学物质， 直接饮用，可能导致腹泻， 反而加速脱水。 在沙漠求生中， 不建议直接饮用仙人掌液体。

常识，有时候，

和直觉，是相反的。

ChatGPT，可能会犯这种错误。

常识推理的未来

更强的推理能力

研究者们，正在开发，

更强的推理能力。

思维链（Chain of Thought），

让模型，一步一步地推理，

而不是直接给出答案。

这，大幅提升了常识推理的准确性。

与外部知识库的结合

未来的模型，

可能把大语言模型，

和专门的常识知识库，结合起来。

大语言模型：提供灵活的语言理解和生成 常识知识库：提供精确的、可验证的常识 两者结合： 既有灵活性，又有准确性。

最后说一句

回到开头的那道题。

“一个人，把雨伞落在了出租车上。他下车的时候，外面正在下雨。请问，他接下来，最可能做什么？”

你，用了不到一秒钟，

就给出了答案。

ChatGPT，也能给出类似的答案。

但你们，用的方式，

完全不同。

你，是从几十年的生活经历里，

提炼出了这种常识。

你，真正地，

被雨淋过，

丢过东西，

感受过那种懊恼和无奈。

ChatGPT，是从几千亿个词里，

提炼出了这种常识。

它，读过了无数篇，

关于下雨、关于丢东西、关于懊恼的文字。

它，没有被雨淋过，

没有真正丢过东西，

没有真正感受过那种懊恼。

但它，能推理出，

那个人，接下来，最可能做什么。

这，是一种奇妙的能力。

不是人类的常识，

但，像人类的常识。

不完美，但令人惊叹。

也许，这就足够了。

也许，这，只是开始。

查看全文

http://www.jsqmd.com/news/825341/

Linux服务器安全加固实战：从SSH防护到自动化部署

容器镜像安全审计利器openshart：从静态分析到CI/CD集成实战

专家系统：装在盒子里的专家

RK3588旗舰SoC驱动OpenHarmony标准系统开发实战

COMET神经网络翻译质量评估框架：多任务架构解析与多语言质量预测实现

Taotoken模型广场如何帮助开发者根据任务选择性价比最优模型

基于SpringAI开发的通用RAG脚手框架，适配各种场景

深度解析：HTTPS CDN 加速——告别“安全慢”的刻板印象

如何选择2026年5月新发布的西南小羊皮艺术漆供应厂家？欧兰泥深度解析 - 2026年企业推荐榜

重庆黔江区高新技术企业认定分批次申报时间及自查避坑指南

[特殊字符] CSS 图片变黑变暗的 3 种方案，总有一款适合你！

手把手教你用PyTorch复现SSVEPNet：从脑电数据预处理到模型训练全流程（附代码）

赋能东盟产业发展广西职教出海打造跨境人才合作新样板

基于CRICKIT与CPX的交互式电子展板：从传感器到执行器的完整原型开发指南

Adobe MAX 2024未公开彩蛋：Sora 2本地推理模块如何通过Premiere Ultra引擎实现离线实时预览（含CUDA核心绑定指南）

收敛性的实际意义：算法世界里的“靠谱“二字

Endowment Effect

DeepSeek GitOps从零到稳：7步完成K8s集群自动化部署，附可复用的Helm+ArgoCD配置清单

如何评估拓客数据的有效性？避开无效内耗，精准提效

告别抢票焦虑：3步配置Python自动化脚本轻松抢到演唱会门票

【LLM引用可信革命】：Perplexity底层引用追踪机制逆向解析与企业级加固方案

从零部署ChatGPT Discord机器人：架构解析与实战指南

3天掌握Obsidian Tasks：从零到高效任务管理的终极指南

Fast-DDS Benchmark 参考结果与验收目标

快速上手Redis

Newhaven 5.0英寸TFT显示屏技术解析与应用指南

终极免费暗黑破坏神2存档编辑器：d2s-editor完全使用指南

Arduino开源贡献全流程：从Fork到Pull Request的工程实践

【限时解密】DeepSeek官方未公开的MATH测试阈值数据：仅Top 3.8%模型通过CoT一致性压力测试

Arm Neoverse CMN-650架构解析与系统地址映射实践