Back to NewsRead Original
AI News CN (Telegram)

AI编程助手调试能力不足?微软研究揭示背后原因

AI编程助手调试能力不足?微软研究揭示背后原因

via cnBeta.COM中文业界资讯站 - Telegram Channel

Telegraph
AI编程助手调试能力不足?微软研究揭示背后原因

AI编程助手调试能力不足?微软研究揭示背后原因微软研究院最近的一项研究表明,即便是最先进的AI模型,在处理软件调试任务时也显得力不从心。这项研究测试了包括Anthropic的Claude3.7Sonnet和OpenAI的o3-mini在内的多款顶尖AI模型,使用名为SWE-benchLite的基准进行评估。结果表明,这些模型在面对精心挑选的300项软件调试任务时,表现不尽如人意。Claude3.7Sonnet的成功率勉强达到48.4%,而OpenAI的两款模型则更低,分别只有30.2%和22.1%。那么…

•••