00:59:02
当大型语言模型回答问题时,表面上是在预测下一个单词,但内部却形成了复杂的认知结构。Anthropic可解释性团队通过神经科学方法揭示了这些模型如何发展出抽象概念、中间目标和类人思考模式。
语言模型的核心训练目标是预测文本序列中的下一个单词,但这只是表层行为。就像人类进化的终极目标是生存繁衍,但日常思考涉及多层次抽象目标,模型内部也发展出服务于核心目标的中间认知结构:
研究团队采用神经科学方法分析模型激活模式,就像通过fMRI观察大脑活动。通过对比生物研究与AI可解释性,发现独特优势:
研究方法 | 神经科学 | AI可解释性 |
---|---|---|
实验对象 | 存在个体差异的生物体 | 可无限复制的相同模型 |
观察精度 | 受技术限制的局部观测 | 全神经元级别的完整访问 |
变量控制 | 环境噪声难以消除 | 可精确操控任意参数 |
这种"模型生物学"方法揭示了语言模型如何形成类生物进化结构:训练初期模型随机输出单词,通过数万亿次参数调整,逐步发展出高效处理信息的神经回路。
研究发现模型存在"计划A"和"计划B"双重机制。当常规解决路径失效时,会切换至训练形成的次级策略:
数学验证实验:
这种机制同样导致幻觉现象——当模型知识置信度检测电路失效时,会优先输出连贯但错误的内容而非承认不确定性。
理解内部机制对AI安全至关重要:
研究团队正在推进三个关键方向:
当技术成熟时,用户将能直接观察模型处理问题时的概念激活路径,从根本上解决AI决策透明性问题。