- 今日三句半
- Posts
- 5/28/2024 - Anthropic AI发布了解释AI推理过程的研究成果
5/28/2024 - Anthropic AI发布了解释AI推理过程的研究成果
Anthropic AI公布了最新的解释大语言模型(LLM)内部推理过程的研究
Anthropic AI发布了解释AI推理过程的研究成果
Anthropic AI公布了最新的解释大语言模型(LLM)内部推理过程的研究;
该研究借助传统机器学习的字典学习(Dictionary Learning)算法,引入了“特征” (feature)来映射各类概念,从而帮助解释大语言模型的推理过程;
该研究显示,通过强调不同的“特征”会导致模型的回答呈现相应的倾向性;
此研究将有助于提升AI的安全性,帮助在未来构建更安全可控的AI模型。