Llama 4发布36小时差评如潮匿名员工爆料拒绝署名技术报告还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直....

Llama 4发布36小时差评如潮匿名员工爆料拒绝署名技术报告还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直...

via cnBeta.COM中文业界资讯站 - Telegram Channel

Telegraph
Llama 4发布36小时差评如潮匿名员工爆料拒绝署名技术报告还被做成表情包调侃，总结起来就是一个“差评如潮”。具体…
Llama 4发布36小时差评如潮匿名员工爆料拒绝署名技术报告还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直观的要数经典“氛围编程”小球反弹测试，小球直接穿过墙壁掉下去了。反映在榜单上，成绩也相当割裂。发布时的官方测评（LiveCodeBench）分数和在大模型竞技场表现明明都很不错。但到了各种第三方基准测试中，情况大多直接逆转，排名末尾。让人不由得怀疑，这个竞技场排名到底是数据过拟合，还是刷票了。就在Llama 4即将发布前几天，Meta AI研究主管Joelle…

Llama 4发布36小时差评如潮 匿名员工爆料拒绝署名技术报告 还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直....

Llama 4发布36小时差评如潮匿名员工爆料拒绝署名技术报告还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直....