AI News CN (Telegram)
OpenAI 新推理模型幻觉率和错误率激增,行业难题待解
OpenAI 新推理模型幻觉率和错误率激增,行业难题待解
OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升,但幻觉率显著高于前代。内部测试显示,o3在人物知识基准中33%回答虚构,o4-mini达48%。第三方测试指出o3编造代码执行细节,用户反馈其生成链接无效。OpenAI称模型因“输出更多主张”导致准确与错误并存,原因未明。
行业转向推理模型以降低训练成本,但推理能力与幻觉的正相关性成新挑战。结合网络搜索或提升准确性(如GPT-4o搜索版准确率90%),但需权衡隐私风险。
TechCrunch
📮投稿 ☘️频道 🌸聊天
via 科技圈🎗在花频道📮 - Telegram Channel
•••