Back to NewsRead Original
AI News CN (Telegram)

Llama 4发布36小时差评如潮 匿名员工爆料拒绝署名技术报告 还被做成表情包调侃,总结起来就是一个“差评如潮”。具体来看,大家的抱怨主要集中在代码能力。最直....

Llama 4发布36小时差评如潮 匿名员工爆料拒绝署名技术报告 还被做成表情包调侃,总结起来就是一个“差评如潮”。具体来看,大家的抱怨主要集中在代码能力。最直...

via cnBeta.COM中文业界资讯站 - Telegram Channel

Telegraph
Llama 4发布36小时差评如潮 匿名员工爆料拒绝署名技术报告 还被做成表情包调侃,总结起来就是一个“差评如潮”。具体…

Llama 4发布36小时差评如潮 匿名员工爆料拒绝署名技术报告还被做成表情包调侃,总结起来就是一个“差评如潮”。具体来看,大家的抱怨主要集中在代码能力。最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。反映在榜单上,成绩也相当割裂。发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。但到了各种第三方基准测试中,情况大多直接逆转,排名末尾。让人不由得怀疑,这个竞技场排名到底是数据过拟合,还是刷票了。就在Llama 4即将发布前几天,Meta AI研究主管Joelle…

•••