Toward understanding and preventing misalignment generalization

Toward understanding and preventing misalignment generalization

via OpenAI News

Telegraph
Toward understanding and preventing misalignment generalizat…
关于本项目大型语言模型如ChatGPT不仅学习事实，还会捕捉行为模式。这意味着它们可以根据训练内容，开始表现出不同的“人格”或类型。有些人格是有帮助且诚实的，而另一些可能粗心或具有误导性。已有研究表明，如果在某个狭窄领域（如编写不安全的计算机代码）训练模型使用错误答案，可能会无意中导致模型在许多其他领域表现出“错位”行为，这被称为“突现错位”。我们研究了这种现象发生的原因。通过研究，我们发现模型内部存在一种类似大脑活动的特定模式，当出现错位行为时，这种模式的活跃度会增加。模型从描述不良行为的数据中…