Anthropic 发布 Claude 3.5 Sonnet,在编程能力上实现了重大突破,引发开发者社区广泛关注。
代码能力亮点
- SWE-bench 评分:在真实软件工程任务中达到 49% 的解决率,远超此前所有模型。
- Artifacts 功能:在 Claude.ai 中可直接生成并预览 Web 应用、SVG 图形等,所见即所得。
- 长上下文理解:支持 200K token 上下文窗口,可处理大型代码库的整体分析。
与 GPT-4o 的对比
在 HumanEval 编程基准上,Claude 3.5 Sonnet 以 92% 的通过率小幅领先 GPT-4o。在复杂的多步骤推理任务中,其表现也更加稳定,幻觉率相对更低。
实际使用体验
在日常 Serverless 函数开发中,Claude 3.5 Sonnet 能够准确理解阿里云 FC 的函数签名、Event 结构,并给出符合最佳实践的代码模板,对于快速原型开发帮助极大。