DeepSeek什么来头，何以震动全球AI圈？

在去年12月，由国内大模型公司“深度求索”开发的DeepSeek应用推出的DeepSeek-V3在全球AI领域掀起巨大波澜，它以极低的训练成本，实现了与GPT-4o等顶尖模型相媲美的性能。时隔不到一个月，DeepSeek又一次震动全球AI圈。

1月27日，随着DeepSeek推出新模型DeepSeek-R1，Deepseek应用登顶苹果中国地区和美国地区应用商店免费App下载排行榜，在美区下载榜上超越了ChatGPT。

北京时间今日（28）凌晨，DeepSeek又发大招，宣布开源全新的视觉多模态模型Janus-Pro-7B。Janus的表现超越了传统的统一模型，有望成为下一代统一多模态模型的有力竞争者。

那么，DeepSeek究竟好在哪？为什么能以较低的成本取得“大力出奇迹”的效果？

DeepSeek：性能卓越，用户体验佳

DeepSeek是一款由国内人工智能公司研发的大型语言模型，简单来说，它就像是一个聪明又懂你的助手。它拥有强大的自然语言处理能力，能够理解并回答你的问题，就像你和朋友聊天一样自然流畅。

而且，DeepSeek不仅能聊天，还能帮你写代码、整理资料，甚至能帮你解决一些复杂的数学问题。它背后有着复杂的算法和大量的数据支持，就像是一个经验丰富的侦探，能从海量信息中挖掘出你想要的东西。

关于类似的大模型，最广为人知的可能是OpenAI开发的ChatGPT。从2024年9月OpenAI发布o1-preview到现在，仅过去不到四个月，市场上媲美甚至超越其性能的推理模型就已遍地开花。

DeepSeek之所以可以从这众多的模型之中异军突起，是因为它不仅率先实现了媲美OpenAI-o1模型的效果，更是将推理模型的成本压缩到了极低。

这次DeepSeek推出的新模型DeepSeek-R1延续了其高性价比的优势，仅用十分之一的成本就达到了GPT-o1级别的表现。

“从大力出奇迹到小力出奇迹”

DeepSeek做了什么算法改进？

DeepSeek模型发布后，瞬间引发了海外AI圈众多科技大佬的讨论。

当地时间1月27日，受DeepSeek冲击，美国人工智能主题股票遭抛售，美国芯片巨头英伟达（NVIDIA）股价历史性暴跌，纳斯达克综合指数大幅下跌。

英伟达高级研究科学家Jim Fan在个人社交平台上公开发表推文表示，“我们正身处这样一个历史时刻：一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理，但最有趣的结局往往最可能成真。”

DeepSeek持续引发业内震动，脸书母公司Meta已成立专门小组展开研究和学习。

北京邮电大学人工智能学院人机交互与认知工程实验室主任刘伟介绍，DeepSeek最大的优势在于它算法的改进和优化，它在算力上得到了节省，在输入数据和语料库上，不像以前要求那么大的数据量和大的算力，这是它的优势。以前如果说OpenAI是“大力出奇迹”，那么DeepSeek就是“小力也可以出奇迹”——小的算力用新的方法也可以出奇迹。

在南京大学人工智能学院教授俞扬看来，DeepSeek站在前人的基础上，在算法上进行了相应的优化，使得训练成本得到大幅降低。

俞扬表示，OpenAI最初在做ChatGPT的时候，使用了需要使用大量机器的强化学习技术，但后来的研究者们发现，可以针对语言模型设计出更简单的算法，这样训练强化学习时大概可节省3/4的机器。

在DeepSeek的公布的技术方案中，它的强化学习也使用了这种简化方案，这就使得技术上有很多可改进的地方。

开源是否是未来的发展方向？

此外，值得关注的是，DeepSeek采用了完全开源策略。

曾经OpenAI创立的初衷，也是作为一家非营利组织，希望“以最有可能造福全人类的方式推进数字智能发展，而不受产生财务回报需求的限制”。然而，OpenAI在GPT-3发布之后限制了对模型的访问权限，仅通过API提供服务，在GPT-4发布之后更是隐藏了其训练数据和模型权重、完全走向了“闭源”。

DeepSeek的完全开源策略不仅降低了用户的使用门槛，还促进了AI开发者社区的协作生态。通过开源，DeepSeek吸引了大量开发者和研究人员的关注，他们可以在GitHub等平台上自由获取和修改模型代码，共同推动AI技术的发展。

英伟达AI科学家Jim Fan称赞DeepSeek是“真正开放的前沿研究，赋能所有人”。

国内的某大模型创业企业的CEO陈里奥告诉记者，开源的好处是显而易见的。这种开放式的创新模式可以激发更多的创意和灵感，推动AI技术的不断进步。

陈里奥表示，大模型目前还是属于技术早期，目前在生文、生图上做得多一些。高精准的逻辑计算、数学、编程类工作，还没有完全在大模型层面完成。但也正是因为处在技术早期，大家一起贡献才能让行业发展得更快。

当然，开源也面临着一些挑战和问题。例如，如何保护知识产权、如何维护开源社区的秩序和稳定等。

俞扬表示，实际上开源只是一种商业模式，即使是开源的东西也是有版权的，所以所谓的开源和闭源之争，更多是商业模式之间的问题——哪一种商业模式可能在这种特定的场景、特定的时代中更有效一些。

有人把DeepSeek的成功归功于这是一个关于中国技术理想主义的故事，也有不少外国人将之比喻为“神秘的东方力量”。但放在整个AI大模型的产业里看，或许DeepSeek的成功代表了大模型的一种全新发展方向。

刘伟表示，现在大模型的发展正在发生一些变化，这个变化是关于它是否完全根据算力的大小来判定模型的好坏。现在DeepSeek给大家一个启示——虽然DeepSeek算力不高，数据可能也不是很多，但通过算法的优化可以做得更好。

DeepSeek什么来头，何以震动全球AI圈？

网友评论