大语言模型“护栏”之争:安全与自由的技术博弈
【导语:大语言模型发展中,早熟的模型可能输出危险内容,科学家构建“护栏”模型应对。但“护栏”也带来新问题,开发者又创建无约束模型。本文介绍19种大语言模型,展现设计与安全的前沿水平。】
为防止大语言模型输出危险内容,科学家构建了多种“护栏”模型。如Meta的LlamaGuard,用已知滥用示例微调开源Llama模型,有近十几个版本,像Llama Guard 3 1B能标记高风险文本交互,Llama Guard 3 8B解决代码解释器滥用问题。
IBM的Granite Guardian作为防护过滤器,扫描提示、监测欺骗行为、关注劣质文档、评估代理功能调用风险,还会生成风险评分和置信水平。Anthropic的Claude有“宪法”约束,禁止危险行为,遵循诚实、有用和安全等原则。
部分大语言模型构建时更倾向自由表达。Eric Hartford团队构建的Dolphin模型,移除训练集中限制性问题和答案,重新训练得到尽可能无“护栏”的版本。
Nous Research的Hermes模型更易“引导”,开发者创建强调有用性和无约束推理的合成示例,训练结果更直接实用。Flux.1模型严格按提示指令创建图像,其修正流变压器架构效果出色,可微调用于特定应用。
一些实验室采用“消融”技术停用“护栏”层。X公司的Grok团队更关注事实性错误,埃隆·马斯克认为人工智能应最大限度追求真相。Grok的设计目标是事实正确性,而非政治正确性。
编辑观点:大语言模型的“护栏”与自由是一对矛盾体。“护栏”模型保障安全,但可能限制模型的自由表达;少“护栏”或无“护栏”模型虽能探索更多可能性,但存在输出危险内容的风险。未来需在两者间找到平衡。
