标签:训练数据

ChatGPT等模型疯狂训练,最快2026年消耗尽公开文本数据

Epochai发布了一份关于大语言模型(LLM)训练数据消耗的研究报告,指出目前全球公开的高质量文本训练数据集约为300万亿tokens。然而,随着像ChatGPT这样的模...

ChatGPT真能记住你的话吗?DeepMind与开源大佬揭示LLM记忆之谜

在探讨大型语言模型(LLM)的记忆能力时,Simon Willison指出,尽管LLM看似具备记忆功能,实则它们在推理时并不能记住任何信息,本质上是无状态函数。用户感...

3140亿参数,可商用!马斯克开源大模型Grok-1

3月18日,马斯克兑现了开源承诺,将旗下公司x.ai的大模型Grok-1正式开源,并支持商业化用途。在这段文本中,重点词语和句子已经使用HTML元素标记出来,使其更...

OpenAI再陷巨大争议?Sora训练数据被质疑非法,CTO采访疯狂翻车

,在最近的一次采访中,对于的来源问题回答含糊,引起了广泛关注和讨论。当被问及Sora使用了哪些数据进行训练时,Murati仅表示使用了公开可用和经过许可的数...

Sora竟是用这些数据训练的?OpenAI CTO坦白惹众怒

OpenAI的首席技术官Mira Murati在最近的一次采访中透露了更多关于其新推出的文生视频工具Sora的细节。采访主要围绕以下几个方面展开:Sora的工作原理。作为一...