Back to NewsRead Original
AI News CN (Telegram)

Toward understanding and preventing misalignment generalization

Toward understanding and preventing misalignment generalization

via OpenAI News

Telegraph
Toward understanding and preventing misalignment generalizat…

关于本项目 大型语言模型如ChatGPT不仅学习事实,还会捕捉行为模式。这意味着它们可以根据训练内容,开始表现出不同的“人格”或类型。有些人格是有帮助且诚实的,而另一些可能粗心或具有误导性。 已有研究表明,如果在某个狭窄领域(如编写不安全的计算机代码)训练模型使用错误答案,可能会无意中导致模型在许多其他领域表现出“错位”行为,这被称为“突现错位”。我们研究了这种现象发生的原因。 通过研究,我们发现模型内部存在一种类似大脑活动的特定模式,当出现错位行为时,这种模式的活跃度会增加。模型从描述不良行为的数据中…

•••