刘知远详解 DeepSeek 出圈背后的逻辑:自身算法的创新以及 OpenAI 的傲慢

AIGC动态22小时前发布 ai-front
63 0 0
刘知远详解 DeepSeek 出圈背后的逻辑:自身算法的创新以及 OpenAI 的傲慢

 

文章摘要


【关 键 词】 人工智能大模型深度学习算力瓶颈智能革命

在探讨人工智能(AI)如何赋能全人类,实现大模型和通用人工智能的普及时,高效性成为了一个核心议题。智能革命被认为将经历与信息革命相似的阶段,即提高能力密度和降低计算成本,从而使大模型更加普惠。清华大学长聘副教授刘知远在由中国计算机学会青年计算机科技论坛(CCF YOCSEF)策划的直播活动中,深入分析了DeepSeek R1的成功出圈及其对大模型技术未来发展的影响。

刘知远强调,DeepSeek R1的开源让全球意识到了深度思考的能力,这类似于2023年初ChatGPT带来的影响,标志着大模型能力的又一次飞跃。他指出,DeepSeek V3展示了如何以更低的成本达到GPT-4和GPT-4o水平的能力,而DeepSeek R1的开源则暴露了OpenAI的“傲慢之罪”——不开源、不公开技术细节且定价过高。

DeepSeek R1的成功在于其创造性地基于DeepSeek V3基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型DeepSeek-R1-Zero。这在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。DeepSeek R1的另一个重要贡献在于其强化学习技术不仅局限于数学、算法代码等领域,还能将强化学习带来的强推理能力泛化到其他领域,如写作等任务,让用户感受到其强大的深度思考能力。

刘知远认为,DeepSeek R1之所以能取得全球性的成功,与OpenAI的策略有很大关系。OpenAI在发布o1后选择不开源,隐藏深度思考过程,并采用高收费,这限制了o1在全球范围内的普惠。而DeepSeek R1则像ChatGPT一样,让所有人感受到了深度思考的震撼,这是其出圈的重要原因。DeepSeek R1的意义在于,在有限的算力资源支持下,通过算法创新突破了算力瓶颈,即使在有限的算力下,也能做出具有全球意义的领先成果。

此外,刘知远还提到,AI要真正赋能全人类,高效性是一个重要命题。他预测,大模型的能力密度正以时间的指数级增强,每100天翻一倍,即每过100天,我们只需要一半的算力和一半的参数就能实现相同的能力。因此,追求更高的能力密度,以更低的成本实现大模型的高效发展,是未来发展的使命。

最后,刘知远提出,人工智能有三大主战场,目标都是让通用人工智能达到顶尖水平:探索人工智能的科学化技术方案,实现计算系统的智能化,以及在各个领域探索人工智能的广谱化应用。这些方向将引领AI技术的发展,实现智能革命的目标。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 5707字 | 23分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...