Claude 4被发现存在举报模式当发现用户存在极其不道德做法时会自动举报

Claude 4被发现存在举报模式当发现用户存在极其不道德做法时会自动举报

via cnBeta.COM中文业界资讯站 - Telegram Channel

Telegraph
Claude 4被发现存在举报模式当发现用户存在极其不道德做法时会自动举报
Claude 4被发现存在举报模式当发现用户存在极其不道德做法时会自动举报AI 模型还会尝试对不法行为进行举报：有趣的是人工智能对齐研究人员 Sam Bowman 似乎还发现 Claude 4 模型存在隐秘功能：如果 AI 模型认为你正在做极其不道德的事情，例如在药物试验中伪造数据，AI 模型就会使用命令行工具联系媒体、联系监管机构，试图将用户锁定在相关系统外。我们姑且可以将该功能称作是举报功能，因为在特定情况下只要模型在设备上获取足够的权限，就可以在检测到用户有不法行为时尝试向监管机构或执法机构举报…

Claude 4被发现存在举报模式 当发现用户存在极其不道德做法时会自动举报

Claude 4被发现存在举报模式当发现用户存在极其不道德做法时会自动举报