DeepSeek-V3 的发布震惊了全球 AI 社区。这家中国 AI 公司用极低的训练成本(约 600 万美元)训练出了性能媲美顶级闭源模型的大模型,并将其完全开源。
技术亮点
- MoE 架构:671B 总参数,但每个 token 仅激活 37B 参数,实现高效推理。
- 多头潜在注意力(MLA):大幅压缩 KV Cache,显著降低推理显存需求。
- 无辅助损失的负载均衡:创新性地解决了 MoE 训练中专家负载不均的问题。
- FP8 混合精度训练:在保持精度的同时将训练效率提升近一倍。
性能表现
在 MMLU、HumanEval、GSM8K 等主流基准测试中,DeepSeek-V3 均达到或超越 GPT-4o 和 Claude 3.5 Sonnet 的水平,成为开源社区性价比最高的选择。
对行业的意义
DeepSeek-V3 证明了高效架构创新可以打破算力壁垒,也让更多企业和个人开发者有机会在本地或低成本云端部署生产级大模型。结合阿里云函数计算,可以低成本搭建 DeepSeek 的私有化推理服务。