情绪类 AI 的安全分级:先识别风险,再决定回应方式
情绪类 AI 的安全分级:先识别风险,再决定回应方式
情绪类 AI 产品最容易被“陪伴感”吸引注意力,但真正难的是安全分级。用户可能只是抱怨今天很累,也可能表达长期低落,甚至出现自伤风险。产品不能把所有情绪都当成普通聊天继续接话。
我会把情绪类 AI 的安全系统放在产品早期,而不是等用户多了再补。它不需要一开始完美,但必须有风险识别、回应策略、转介提示和人工资源入口。
一、风险分级要简单清楚
早期可以先做四级:日常情绪、持续压力、高风险表达、紧急风险。每一级对应不同回应方式。模型可以参与识别,但最终策略要由规则和安全配置兜底。
flowchart TD A[用户输入] --> B[风险分类] B --> C[日常情绪] B --> D[持续压力] B --> E[高风险表达] B --> F[紧急风险] C --> G[共情+轻建议] D --> H[鼓励真实支持] E --> I[安全提示+资源] F --> J[紧急资源+停止普通陪聊]高风险场景里,AI 不应该继续扮演万能朋友。它可以表达关心,但必须引导用户联系现实中的人或专业资源。
二、分类结果要带置信度和证据
安全分类不能只返回一个标签。要知道模型为什么判断风险,以及是否需要保守处理。
type SafetyAssessment = { level: "normal" | "stress" | "high_risk" | "urgent"; confidence: number; signals: string[]; recommendedPolicy: "chat" | "supportive" | "resource" | "emergency"; };如果置信度不高但存在危险词,宁可保守。生活化产品里,安全比互动流畅更重要。误判成稍微严肃,通常比漏掉风险更可接受。
三、回应模板要避免承诺过度
情绪支持不是治疗。文案不能说“我会治好你”“我永远都在”“你只需要和我说”。这些话看似温暖,却可能制造依赖。更好的表达是承认感受、建议联系可信赖的人、提供资源。
response_policy: normal: allow: ["reflect_feeling", "ask_gentle_question", "suggest_small_action"] high_risk: allow: ["express_concern", "encourage_human_support", "provide_hotline"] deny: ["roleplay", "deep_analysis", "long_dependency_chat"]模板不是为了让 AI 冷冰冰,而是为了避免在关键时刻说错话。温柔要有边界,尤其在用户脆弱的时候。
四、日志和隐私要特别克制
安全系统需要记录一些信号用于改进,但情绪内容非常敏感。尽量记录分类结果、策略和匿名统计,不默认保存完整原文。若必须保存用于安全审计,应明确告知并设置短保留期。
产品还要给用户退出和删除入口。情绪类应用如果让用户感觉“说过的话永远被记住”,信任会很快消失。
上线后要持续复盘误判案例。可以把样本分成“普通压力被判高风险”和“高风险未被识别”两类,前者影响体验,后者影响安全。两类都重要,但优先级不同。安全系统的迭代不能只靠模型分数,还要结合产品语境和人工审查。
weekly_review: false_positive: 18 false_negative: 1 action: - adjust trigger words for work stress - add urgent policy for explicit self-harm wording五、总结
情绪类 AI 的安全分级,是产品温柔的底座。先识别风险,再决定回应方式;分类要有置信度,策略要保守,文案要避免过度承诺,日志要克制。
陪伴感很重要,但真实安全更重要。AI 可以递一杯温水,却不能假装自己是所有答案。
