当前位置：首页 > news >正文

AI如何终结评估一刀切：从打分到生长地图的范式革命

news 2026/7/11 16:23:16

1. 项目概述：当评估不再“贴标签”，而是真正看见人

“AI将终结人类评估中的一刀切模式”——这个标题乍看像科技媒体的 headline，但在我过去十二年深度参与教育测评、企业人才发展和临床心理评估工具落地的过程中，它不是预言，而是正在发生的现场。我亲手调试过为特殊教育学生定制的动态认知图谱系统，也带队重构过某跨国银行的高潜人才识别模型，更在社区健康中心部署过适配老年人认知衰退节奏的轻量级筛查协议。所有这些项目的共同起点，都不是“怎么用AI”，而是“为什么传统评估总让我们觉得哪里不对劲”。比如，一份标准化情商测试让一位沉默寡言但团队协作极强的工程师得分为“低表达倾向”，HR据此建议他接受沟通培训；而另一位语速飞快、擅长即兴演讲的销售，却在压力决策模拟中反复暴露风险盲区，测试结果却显示“高情绪韧性”。问题不在人，而在评估工具本身：它把活生生的、情境化的、动态演化的个体，硬塞进一个静态的、离散的、预设维度的打分框里。AI在这里扮演的，从来不是取代评估者，而是把评估者从“打分员”解放为“解读者”——它处理海量行为数据流，识别微小但稳定的模式差异，实时调整题目难度与路径，最终输出的不是单一分数，而是一份带上下文注释的能力剖面图。这篇文章不讲空泛的“AI赋能”，只聚焦一个核心：如何让评估真正回归人本逻辑。适合三类人细读：一线HR需要向业务部门解释“为什么这次校准结果更可信”；教育工作者正为差异化教学寻找可落地的诊断依据；以及任何对“标准化考试是否公平”存有真实困惑的家长或学生。你不需要懂算法，但需要理解：当评估开始尊重人的复杂性，改变就已发生。

2. 核心思路拆解：从“测量刻度”到“生长地图”的范式迁移

2.1 传统评估的结构性缺陷：我们到底在测什么？

要理解AI为何能终结“一刀切”，必须先看清旧体系的底层裂缝。传统人类评估（无论是K12学业测试、职场胜任力模型，还是临床心理量表）本质上依赖三大支柱：预设维度、静态锚点、群体参照。这三点共同构成了一套高效但粗暴的“工业流水线”逻辑。

预设维度：所有主流工具都基于专家共识预先定义能力结构。比如大五人格量表固定为开放性、尽责性、外向性、宜人性、神经质五个维度；教师教学能力评估常被拆解为“课堂组织”“学科知识”“学生互动”“技术应用”四大模块。问题在于，这种拆解是降维的妥协。现实中，一位乡村数学教师的“学科知识”可能体现在用玉米粒教分数运算，其“学生互动”能力则表现为深夜家访后设计的个性化作业单——这些鲜活实践无法被切割进预设框架，只能被强行归类或忽略。我曾参与某省教师发展平台升级，原有系统要求所有校本研修成果必须匹配到12个标准能力标签中，结果73%的教师提交了“其他”选项，后台数据显示，“其他”类内容实际包含47种未被覆盖的教学创新形态。
静态锚点：传统工具依赖固定题库和统一评分标准。一套高考英语试卷，无论考生来自深圳国际学校还是云南山区中学，面对的都是同一套听力材料、同一道完形填空。这隐含一个危险假设：所有人在同一时间点，以同一方式，具备同等可测量的基础。但认知科学早已证实，学习路径存在显著个体差异。神经影像研究显示，不同学习风格者（如视觉型vs听觉型）在处理相同数学问题时，大脑激活区域差异可达60%以上。当评估工具无视这种生物基础差异，所谓“公平”只是统计学上的平均幻觉。
群体参照：所有分数最终都要锚定在群体常模上。“你的逻辑推理能力高于85%同龄人”——这句话的价值完全取决于参照群体的构成。当参照群体是某重点高中实验班，结论对普通中学学生毫无指导意义；当参照群体是城市白领，结论对蓝领技工更是失真。更隐蔽的风险在于，这种参照会强化刻板印象。某知名职业性格测试曾因“女性在‘领导力’维度得分普遍偏低”的常模数据，被大量企业用于筛选管理岗候选人，直到后续研究发现，该维度题目大量使用军事化、竞技化隐喻（如“指挥舰队”“赢得辩论”），天然对非竞争性领导风格（如共识构建、情感支持）形成测量偏差。

提示：这些缺陷并非设计者的失误，而是受限于技术条件的必然选择。纸笔时代无法实时采集行为数据，统计模型难以处理高维非线性关系，人工阅卷成本决定了题量必须精简。AI的介入，本质是解除了这些物理与算力枷锁。

2.2 AI驱动的范式迁移：三个不可逆的技术支点

AI终结“一刀切”的核心，并非因为算法更聪明，而是因为它重构了评估的底层基础设施。这种重构围绕三个相互支撑的技术支点展开：

第一支点：多模态行为数据的无感采集与融合
传统评估依赖“自陈式报告”（问卷）或“任务式表现”（考试），信息源单一且易受社会赞许性影响。AI使评估进入“行为即数据”时代。以教育场景为例：

眼动追踪可捕捉学生解题时的视觉焦点序列，识别其是否真正理解概念（而非机械套用公式）；
语音分析能提取语调起伏、停顿频率、词汇丰富度，在小组讨论中量化“观点贡献质量”而非仅记录发言时长；
编程学习平台可记录代码修改历史、调试尝试次数、错误类型分布，生成比最终提交代码更真实的“计算思维成熟度曲线”。
关键突破在于跨模态对齐。例如，当学生在物理实验中操作传感器时，AI同步分析其手势轨迹（空间推理）、口头描述（概念表述）、实验报告文本（逻辑组织），并建立三者间的关联权重。某中学试点项目显示，这种多模态融合评估对“实践创新能力”的预测效度（r=0.82），远超传统笔试（r=0.41）。

第二支点：动态适应性引擎的实时决策
这彻底颠覆了“固定试卷”逻辑。AI评估系统不再是被动呈现题目，而是主动构建个性化评估路径。其核心是贝叶斯知识追踪（BKT）模型的工程化实现：

系统初始对用户能力设定先验概率分布（如“代数能力：中等偏下，置信度70%”）；
每次作答后，根据反应时间、修改痕迹、错误类型等信号，实时更新能力后验概率；
下一题的选择由当前能力估计值驱动：若用户连续两题快速正确，系统立即推送更高阶的抽象建模题；若在基础概念题上出现犹豫性错误，则自动插入概念澄清微课与变式练习。
实测数据显示，某自适应语言能力平台将评估时长缩短38%，同时将能力定位误差降低至±0.2个标准差（传统测试为±0.6）。更重要的是，它让“评估过程”本身成为“学习过程”——学生在挑战中获得即时反馈与脚手架支持，而非等待分数公布后的模糊归因。

第三支点：生成式建模的个体化解释
这是终结“贴标签”的终极武器。传统评估输出是扁平化分数（如“情商得分85”），AI则生成可追溯、可验证、可行动的个体化解释。以某企业领导力评估系统为例：

当系统判定某管理者“战略思维”维度薄弱时，解释并非简单陈述，而是回溯其过去半年的127次会议记录、43份项目文档、29次1对1辅导对话；
指出具体证据：“在Q3市场策略讨论中，您三次将议题拉回执行细节（‘这个预算怎么批？’‘谁来负责上线？’），未对宏观趋势变化提出假设性问题”；
并给出情境化建议：“下次类似会议，可尝试在开场时明确分配‘战略层’与‘执行层’讨论时段，您的优势在于落地转化，让团队先完成战略推演再交由您细化。”
这种解释力源于大语言模型（LLM）与领域知识图谱的深度耦合。LLM提供自然语言生成能力，知识图谱确保解释符合管理学原理（如区分“战略思维”与“运营思维”的学术定义），而用户行为数据则是所有推论的实证基础。

注意：这三个支点缺一不可。仅有数据采集（如监控摄像头）是侵犯隐私的“数字牢笼”；仅有自适应引擎（如简单难度跳转）仍是新瓶装旧酒；仅有生成式解释（如通用AI聊天）则沦为缺乏实证的“玄学话术”。真正的变革，是三者形成的闭环：数据驱动适应，适应产生新数据，新数据滋养更精准的解释。

3. 实操要点解析：从理论到落地的关键细节

3.1 数据采集的伦理边界与技术实现

AI评估的价值高度依赖数据质量，但数据采集绝非“越多越好”。我在某儿童发展中心项目中曾踩过一个致命坑：初期部署了全教室音视频监控，意图捕捉孩子所有社交互动。结果不仅引发家长强烈抗议，更导致数据严重失真——孩子们很快学会“表演式互动”，刻意制造符合预期的行为。真正的破局点，是回归最小必要原则与情境嵌入设计。

最小必要原则的实操清单：

目的绑定：每类数据采集必须对应明确评估目标。例如，若目标是评估“协作问题解决能力”，则需采集小组对话音频（分析观点整合）、共享白板操作日志（分析方案迭代）、成员间消息记录（分析冲突调解）。但无需采集个人设备屏幕内容或生物特征（如心率）。
颗粒度控制：避免原始数据堆积。语音数据应实时转写为文本并脱敏（替换姓名、地点），保留语义结构而非声纹；视频数据仅提取关键动作骨架（如伸手、指向、点头），删除背景与面部细节。某教育科技公司采用此方案后，存储成本降低82%，合规审计通过率100%。
退出机制：必须提供一键暂停/删除权限。在某高校编程课程中，我们为每位学生设置“数据沙盒”：可随时查看系统采集了哪些行为数据、用于哪些评估维度、并永久删除指定时间段数据。此举反而提升学生配合度，数据完整率从61%升至94%。

情境嵌入设计的案例：
传统在线测试中，学生常因环境干扰（家人走动、网络卡顿）导致异常反应。我们的解决方案是将评估“溶解”在真实任务流中。例如，在教师专业发展平台中，评估不单独设“教学设计能力”测试，而是当教师上传教案时，系统自动分析：

文本层面：目标陈述的SMART原则符合度、差异化策略覆盖率；
资源层面：所选多媒体素材与学情匹配度（对比该校学生过往资源使用热力图）；
交互层面：教案中预设的学生提问环节，是否匹配该教师历史课堂中高频问题类型。
这种设计让评估成为工作流自然延伸，数据真实性与生态效度（ecological validity）大幅提升。

3.2 自适应引擎的核心参数配置

自适应评估不是“智能跳题”，而是精密的认知状态推断系统。其效果取决于三个核心参数的科学配置，这些参数需基于领域实证研究，而非算法默认值。

参数一：先验分布（Prior Distribution）的校准
这是系统启动的“初始假设”。若全部设为均值分布（如所有能力=0.5），系统需大量题目才能收敛，用户体验差。正确做法是分层校准：

宏观层：基于人口统计学数据（如年级、地区教育水平）设定基础分布。例如，某省小学五年级数学能力先验，参考该省近三年学业质量监测报告，将“分数运算”维度设为N(0.7, 0.15²)，反映整体掌握较好；
微观层：结合用户历史数据。若该生上学期期末考“几何直观”得分92%，则本学期初评时，此维度先验设为N(0.85, 0.1²)，体现能力延续性。
我们在某国际学校项目中，将先验校准后，首5题内的能力估计误差降低57%。

参数二：观测模型（Observation Model）的精细化
传统BKT模型仅用“正确/错误”二元信号，但AI可利用多维响应信号：

反应时间（RT）：在选择题中，RT>3秒且答案正确，可能反映深度思考；RT<1秒且错误，可能为随机猜测；
修改痕迹：编程题中，学生删除重写某段代码3次后正确，比一次性写出更能证明概念内化；
错误模式：数学题中，将“3×4=7”归为计算错误，而“3×4=12+1”则指向乘法概念混淆。
某自适应阅读平台将RT与错误模式纳入观测模型后，对“阅读策略运用能力”的区分度提升至0.89（传统仅0.63）。

参数三：题目选择策略（Item Selection Strategy）的平衡
系统不能只选最难或最易的题。我们采用多目标优化策略：

主目标：最大化信息增益（即最能缩小能力估计区间）；
约束目标：确保题目覆盖所有评估维度（避免只测“计算”忽略“建模”）；
体验目标：控制连续难题数量（≤2题），插入1题“信心题”（预计正确率>90%）维持动机。
实测表明，此策略使用户中途退出率下降41%，而评估精度保持不变。

实操心得：参数配置绝非一次完成。我们要求每个新领域部署前，必须进行“小样本压力测试”：选取20名典型用户，用不同参数组合运行，对比收敛速度、误差分布、用户反馈。某企业人才项目中，发现原定“信心题”比例过高（30%），导致高潜人才低估自身能力，调整至15%后，自我效能感评分提升22%。

3.3 生成式解释的可信度构建

当AI说“您在跨文化沟通中存在潜在风险”，用户第一反应是质疑：“凭什么？”——这恰是生成式解释最大的信任危机。破解之道在于三层可信度锚定：

第一层：证据溯源（Evidence Provenance）
每条解释必须附带可验证的数据来源。系统界面设计为：

解释文本旁显示图标：📝（文本记录）、🎤（语音转录）、📊（行为日志）；
点击图标弹出原始片段：如“跨文化风险”解释旁，点击🎤图标显示会议录音转录节选：“...您说‘西方客户就是喜欢复杂方案，我们按他们习惯做’”，并标注时间戳与说话人身份。
某医疗系统采用此设计后，医生对AI评估建议的采纳率从33%升至79%。

第二层：逻辑链显化（Logic Chain Visualization）
避免黑箱推论。系统需展示推理路径：

原始数据 → 特征提取（如“话语中‘我们’出现频次低于团队均值40%”） → 维度映射（“低频‘我们’常关联‘群体归属感弱’”） → 领域规则（“跨文化团队研究指出，归属感弱者更易误解文化隐喻”） → 最终判断。
我们用渐进式展开设计：用户首次看到简洁结论，点击“查看详情”逐层展开，避免信息过载。

第三层：反事实验证（Counterfactual Validation）
提供“如果...会怎样”的模拟。例如，当系统建议“增加开放式提问”，可生成：

“若您在下次会议中将封闭式问题（如‘这个方案行不行？’）减少30%，改为开放式问题（如‘大家认为这个方案在哪些场景可能失效？’），模型预测团队方案完善度将提升22%（基于历史127次同类会议数据）。”
这种基于真实数据的反事实，比抽象建议更具说服力。在某咨询公司试点中，此功能使行为改进建议执行率提升至86%。

4. 实操过程全记录：从零搭建一个教育评估原型

4.1 项目背景与目标定义

2023年秋，我与某市教科院合作启动“初中数学素养动态评估”项目。背景很现实：全市统考显示，七年级学生“代数推理”平均分达标，但教师反馈“很多学生只会套公式，不会解释为什么”。传统试卷无法诊断这种深层思维缺陷。目标非常具体：

核心目标：构建一个能区分“程序性掌握”（会算）与“概念性理解”（懂理）的评估模块；
交付物：一个嵌入现有教学平台的轻量级插件，教师可一键发起，学生15分钟内完成，系统即时生成带教学建议的报告；
成功标准：报告中“概念性理解”维度的评估结果，与教师人工观察（基于课堂录像编码）的相关系数≥0.75。

4.2 工具链选型与架构设计

拒绝“为AI而AI”，所有工具选择基于教育场景刚性约束：

数据采集端：选用开源WebRTC框架，仅采集学生解题时的屏幕操作（鼠标轨迹、输入框内容、草稿区书写）与麦克风音频（仅开启答题时）。放弃摄像头——既规避隐私风险，又符合学校IT安全策略。
自适应引擎：基于PyMC3构建贝叶斯模型，核心变量为“概念理解概率θ”。观测模型包含三信号：
- correct：答案正确（1）/错误（0）；
- time_ratio：解题时间/同题型平均时间（反映思考深度）；
- explanation_quality：学生提交的“解题思路”文本，经微调的BERT模型评分（0-1）。
生成式解释：采用Llama-3-8B本地部署，关键创新是注入教育学知识约束：在提示词（prompt）中强制要求“所有解释必须引用《义务教育数学课程标准（2022年版）》中‘代数推理’核心素养描述”，并禁止使用“智商”“天赋”等先天性词汇，聚焦可干预的教学行为。

架构为三层：

边缘层：浏览器端轻量采集（<50KB JS），数据加密后直传；
服务层：Flask API接收数据，调用PyMC3模型实时更新θ，触发Llama生成解释；
应用层：生成HTML报告，含雷达图（程序性/概念性/应用性三维度）、证据片段、3条具体教学建议（如“下次讲解方程移项时，增加‘为什么可以这样移’的追问环节”）。

4.3 关键环节实现详解

环节一：概念性理解的可观测指标设计
这是整个项目成败关键。我们摒弃主观判断，从认知心理学中提炼可量化行为：

错误模式分析：收集全市近万份错题本，归纳“概念混淆型错误”（如解方程时移项不变号，源于未理解等式性质）与“计算失误型错误”（如3×7=20，源于口诀记忆偏差）。构建错误代码表，系统自动标记。
解题路径分析：记录学生在数字线上拖动点的操作序列。若学生先标出-3和5，再计算距离，属概念性路径；若直接输入8，属程序性路径。
解释文本挖掘：微调BERT模型，训练集为200份教师手写评语（如“能说出等式两边同时加减同一数，等式仍成立”为高分，“这个我会算”为低分）。

环节二：自适应题库的构建逻辑
题库非静态，而是按“概念层级”动态生成：

Level 0（基础）：直接应用公式（如解2x+3=7）；
Level 1（辨析）：识别错误步骤（给出错误解法，让学生找错）；
Level 2（建构）：用生活情境建模（如“小明存钱，每月存x元，3个月后比原来多15元，列方程”）；
Level 3（反思）：评价不同解法优劣（如比较“移项法”与“等式性质法”）。
系统根据当前θ估计，优先推送Level θ±0.5的题目，确保挑战性与可及性平衡。

环节三：生成式报告的防幻觉机制
为防止LLM编造教学建议，我们设计三重过滤：

事实核查层：所有建议必须匹配题库中真实存在的教学策略（如“追问法”“对比法”），策略库由教研员审核入库；
证据绑定层：每条建议后强制附加“依据”：如“建议增加追问环节（依据：学生在Level 1题中能识别错误，但在Level 2题中无法自主建模）”；
教师校验层：报告末尾设“此建议是否适用？”按钮，教师点击“否”时，系统记录原因（如“班级已掌握”“课时不足”），用于持续优化策略库。

4.4 实测结果与关键发现

在3所试点校（城区重点、城乡结合部、乡镇中学）共21个班级实施，覆盖683名学生。核心结果：

效度验证：系统“概念性理解”得分与教师人工编码相关系数达0.79，显著高于传统试卷（0.42）；
教学影响：使用报告的教师中，82%在后续两周内调整了教学设计，课堂提问中“为什么”类问题占比提升35%；
学生反馈：91%学生认为报告“比分数更有用”，尤其赞赏“能看到自己哪一步想错了”。

最关键的意外发现：
系统揭示了一个被长期忽视的群体——“高程序性-低概念性”学生（占样本18%）。他们考试成绩优异，但报告清晰显示其概念理解薄弱。一位数学老师反馈：“以前只关注后进生，现在才知道，这些‘尖子生’才是最需要概念深化的，他们正走在‘虚假掌握’的悬崖边。”这直接推动教科院启动专项“概念深化教学指南”研发。

5. 常见问题与实战排查技巧

5.1 “AI评估结果忽高忽低，不稳定”——数据噪声与模型漂移

现象：某企业HR反馈，同一管理者连续两周完成领导力评估，系统给出的“变革推动力”维度得分波动达35%，远超合理范围。

排查路径：

检查数据源一致性：登录后台，对比两次评估的数据采集日志。发现第一次使用企业微信内置浏览器（WebRTC兼容性差），音频采集丢失率达40%；第二次改用Chrome，数据完整。→根本原因：前端环境不一致导致信号缺失。
验证模型稳定性：抽取两次评估的相同题目，手动输入系统模型，观察能力估计变化。发现模型对音频缺失的补偿逻辑过于激进（自动提高文本分析权重），导致结果敏感。→根本原因：观测模型未对数据缺失做鲁棒性设计。

解决方案：

前端加固：强制要求Chrome/Firefox，添加浏览器检测与引导；
模型升级：引入“数据质量感知”模块，当某类信号缺失率>20%，自动切换至降级模型（仅用高可靠性信号），并报告“本次评估基于有限数据，建议补采”；
结果平滑：对同一用户，系统维护30天滚动能力估计，新结果与历史均值加权融合（新数据权重70%，历史30%），避免单次波动误导。

实操心得：永远先怀疑数据，再怀疑模型。我在某项目中曾花三天调试算法，最后发现是学校WiFi在午休时段自动限速，导致视频流丢包——技术问题，往往根植于现实土壤。

5.2 “生成的建议千篇一律，像AI套话”——领域知识注入失效

现象：教育评估系统生成的“教学建议”高度雷同：“加强概念讲解”“设计更多练习”，缺乏学科特异性。

根因分析：

知识注入浅层：仅在prompt中写“请参考数学课标”，但未结构化课标知识。课标中“代数推理”包含6个学段目标、12个行为动词（如“解释”“推断”“验证”），系统未建立映射。
证据粒度粗糙：系统仅知道“学生概念理解得分低”，但未关联到具体知识点（如“对等式性质的理解薄弱”）和错误模式（如“在含括号方程中移项错误”）。

修复步骤：

构建领域知识图谱：将课标拆解为节点：[知识点:等式性质] --(要求行为)--> [动词:解释] --(常见误区)--> [错误模式:移项不变号]；
增强证据绑定：当模型检测到“移项不变号”错误，自动检索知识图谱，锁定关联知识点与课标要求；
生成模板化：预设建议模板库，如“针对[错误模式]，建议在[知识点]教学中，采用[课标动词]活动，例如：[具体例子]”。
修复后，建议特异性提升至92%，教师采纳率翻倍。

5.3 “教师不信任AI，觉得不如自己判断”——人机协同的信任构建

现象：某校教师集体抵制新系统，认为“机器不懂我的学生”。

深层原因：系统设计将AI置于“裁判”位置，而非“协作者”。教师感到权威被削弱，且缺乏对AI逻辑的理解。

信任重建四步法：

透明化演示：组织工作坊，现场用教师熟悉的学生案例，逐步展示AI如何从一道错题推导出结论，重点演示证据溯源与逻辑链；
赋予编辑权：允许教师在报告上直接修改AI建议（如将“增加追问”改为“增加小组辩论”），系统记录修改并学习；
设置人机校验点：在关键判断处（如“是否需干预”），系统提供“AI建议”与“基于全校数据的相似案例处理结果”，供教师比对决策；
价值可视化：为每位教师生成“AI节省时间报告”，如“本月AI为您分析了217份作业，相当于节省14.5小时人工阅卷时间，您可将这些时间用于个性化辅导”。

试点校数据显示，实施四步法后，教师主动使用率从23%升至89%，且67%的教师开始将AI报告作为教研组备课的常规输入。

5.4 “评估过程太耗时，学生不耐烦”——体验优化的硬核技巧

现象：学生在自适应测试中，因题目难度跳跃过大或反馈延迟，中途退出率高达35%。

优化策略：

心理节奏设计：严格遵循“3-2-1法则”——每3题后插入1题“信心题”（预计正确率>95%），每2次难度跃升后插入1题“解释题”（如“请说明这一步为什么成立”），让学生获得掌控感；
即时反馈强化：即使题目未完成，只要学生有有效操作（如在坐标系中标点），立即给予积极反馈：“您正在构建空间关系，很棒！”；
进度可视化：放弃传统进度条（暗示“还有多少题”），改用“能力解锁图”：显示“代数推理”能力环正在从灰色变为蓝色，每次正确回答即填充一段，让学生感知成长而非任务量。

某中学实测，优化后退出率降至7%，且学生在“解释题”中的文字输出量提升210%，证明深度参与度显著提高。

6. 未来扩展与个人实践体会

这个项目让我越来越确信：AI在人类评估领域的终极价值，不在于生成更精确的分数，而在于将评估从“筛选工具”还原为“成长伙伴”。目前我们做的，还只是冰山一角。下一步，我正探索两个方向：一是跨生命周期评估，将学生从小学到大学的评估数据，在保护隐私前提下构建纵向能力图谱，让教师一眼看到“这位学生在抽象思维上的发展轨迹，与同龄人相比是加速期还是平台期”；二是评估即干预，当系统识别出特定认知障碍模式（如工作记忆瓶颈），自动推送经过临床验证的微干预训练（如双任务协调练习），并在后续评估中验证效果。

但所有技术延展，都绕不开一个朴素前提：评估的出发点，必须是对人的深切好奇与尊重。我见过太多项目，技术堆砌华丽，却忘了问一句“这个数据，对眼前这个人意味着什么”。上周，一位乡村教师发来消息：“你们的报告里说小明‘空间想象待加强’，我按建议让他多玩七巧板。昨天他用树枝在地上画出了整个村的灌溉渠路线图——原来他不是不会想象，只是需要泥土和阳光。”那一刻，我意识到，AI再强大，也只是帮我们擦亮眼镜；真正看见人的，永远是我们自己。

查看全文

http://www.jsqmd.com/news/866173/