DeepSeek的出现,不仅在技术上取得了突破,更在AI领域引发了深远的影响。DeepSeek 改变 AI 游戏规则主要体现在以下几方面:
- 训练成本与效率:在训练 DeepSeek-V3 这个参数量高达 671b 的大模型时,仅使用 2048 块 GPU 训练 2 个月,花费 557.6 万美元,训练过程仅用了不到 280 万个 GPU 小时。相比之下,OpenAI 等为维持在 AI 领域的优势地位每年要花费上百亿美金,这表明 DeepSeek 以较低成本和较高效率实现了大模型训练,打破了过往认为只有巨额投入才能训练出顶级模型的认知。
- 模型性能:DeepSeek 推出的多个模型性能出色。如 DeepSeek-V3 在知识类任务上水平显著提升,接近 Claude-3.5-sonnet-1022,在美国数学竞赛和全国高中数学联赛上大幅超过其他开源闭源模型;DeepSeek-Coder-V2 在代码特定任务中达到与 GPT4-Turbo 相当的性能,还将支持的编程语言从 86 种扩展到 338 种,将上下文长度从 16k 扩展到 128k。
- 技术创新:其核心产品 DeepSeek-R1 在三维空间推理方面达到 87.6% 的准确率,跨模态意图理解的 F1 值高达 91.2%,突破了机器人技术瓶颈,为提升机器人决策速度与反应能力带来潜力,在具身智能领域有重大技术创新。
- 重新定义竞争壁垒:过去 AI 行业认为大量资金与硬件投入是取得领先的关键,DeepSeek 证明了数千万美元的投资也能取得显著成果。如 UC 伯克利博士生潘家怡复现 DeepSeek R1-Zero,整个实现成本不到 30 美金,说明低成本构建具备推理能力的模型成为可能,预训练模型的巨额投入不再是必需,这颠覆了传统竞争模式。
- 开源模式冲击:与 OpenAI 的闭源路线不同,DeepSeek 选择完全开源,将代码、模型权重和训练日志全部公开。当开源模型性能能与闭源模型相媲美甚至在部分领域超越时,会吸引越来越多开发者,降低构建应用程序的成本,促进 AI 行业的创新和发展,就像安卓系统对手机行业的影响,可能使 AI 行业生态更加繁荣。
- 突破外部限制:在 GPU 短缺和芯片禁运的背景下,DeepSeek 作为一家中国公司,仅依靠少量硬件配置和几十名年轻的博士生就完成了跨越式的技术突破,这表明即使在外部环境受限的情况下,通过创新和开放的技术交流,依然能在 AI 领域取得重大进展,打破了美国的 AI 资源限制和技术封锁。
- 彰显发展路线差异:DeepSeek 的出现代表了中国 AI 发展追求效率极限的路线,与美国押注模型能力提升的路线形成对比,为全球 AI 发展提供了不同的思路和方向,促使各国重新审视自身 AI 发展策略,推动全球 AI 行业多元化发展。随着AI应用的逐渐落地,模型效率将会成为打通中国大模型商业化循环的一把“钥匙”。
|