文章摘要
【关 键 词】 OpenAI、DeepSeek、模型训练、数据蒸馏、市场竞争
OpenAI指控国内大模型平台DeepSeek使用其模型训练竞争对手,违反服务条款。大模型蒸馏是行业普遍训练方法,将知识从复杂教师模型转移到简单学生模型。教师模型捕捉数据复杂模式,学生模型结构简单、算力需求小。学生模型训练时,使用原始数据和教师模型输出的软标签作为监督信息,学习拟合硬标签和软标签,从而逼近教师模型性能。蒸馏技术有多种变体,如中间层蒸馏和多教师蒸馏。DeepSeek的R1模型对美国市场造成冲击,英伟达股价暴跌17%,市值蒸发约5890亿美元。社交平台上对此消息讨论激烈,有观点认为OpenAI也曾使用外部数据训练模型,质疑其是否会公布证据,担忧OpenAI可能变得更加封闭。也有观点认为这是行业常态,不应限制使用模型训练自己的模型。
原文和模型
【原文链接】 阅读原文 [ 1517字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...