文章摘要
【关 键 词】 DeepSeek V3、AI训练、数据过滤、技术贡献、AI应用
近期,DeepSeek V3成为大模型圈的热门话题,但其存在一个bug,即在缺少问号的情况下,DeepSeek V3会错误地自称为ChatGPT。尽管有人怀疑DeepSeek V3可能基于ChatGPT的输出进行训练,但根据网友Riley Goodside的观点,这种可能性不大。他认为所有在ChatGPT之后出现的大模型几乎都接触过ChatGPT,而且DeepSeek V3的质量与其是否使用ChatGPT数据无关。此外,报告中提到95%的GPU-hours用于预训练基础模型,即使与ChatGPT数据有关,也会在后5%的post-training阶段发生。
TechCrunch指出,AI公司获取数据的网络充斥着AI垃圾,这使得训练数据彻底过滤AI输出变得困难。AI Now Institute的首席科学家Heidy Khlaaf表示,尽管存在风险,开发者仍被从现有AI模型中蒸馏知识的成本节约所吸引。
尽管存在bug,网友们对DeepSeek V3的能力给予了高度评价。有网友使用DeepSeek V3和Claude Sonnet 3.5在Scroll Hub中创建网站,认为DeepSeek V3胜出。还有网友分享了在AI视频编辑器中使用DeepSeek V3的体验,表示可以改变工作流程。此外,DeepSeek V3还可以与AI编程神器Cursor结合,例如制作贪吃蛇游戏。
对于DeepSeek V3的53页论文,有网友注意到贡献列表中不仅包括技术人员,还有数据注释和商务等工作人员。这种做法被认为符合DeepSeek的调性。
原文和模型
【原文链接】 阅读原文 [ 998字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆