训练数据 | 学习AIGC

谷歌等最新研究，合成数据可将大模型数学推理提升8倍

随着大模型如ChatGPT的快速发展，对高质量训练数据的需求呈指数级增长，预计最快将在2026年耗尽现有的300万亿tokens的公开数据集。为了解决这一问题，合成数...

AIGC动态

5个月前

Epochai发布了一份关于大语言模型（LLM）训练数据消耗的研究报告，指出目前全球公开的高质量文本训练数据集约为300万亿tokens。然而，随着像ChatGPT这样的模...

AIGC动态

1年前 (2024)

在探讨大型语言模型（LLM）的记忆能力时，Simon Willison指出，尽管LLM看似具备记忆功能，实则它们在推理时并不能记住任何信息，本质上是无状态函数。用户感...

AIGC动态

1年前 (2024)

3月18日，马斯克兑现了开源承诺，将旗下公司x.ai的大模型Grok-1正式开源，并支持商业化用途。在这段文本中，重点词语和句子已经使用HTML元素标记出来，使其更...

AIGC动态

2年前 (2024)

，在最近的一次采访中，对于的来源问题回答含糊，引起了广泛关注和讨论。当被问及Sora使用了哪些数据进行训练时，Murati仅表示使用了公开可用和经过许可的数...

AIGC动态

2年前 (2024)

OpenAI的首席技术官Mira Murati在最近的一次采访中透露了更多关于其新推出的文生视频工具Sora的细节。采访主要围绕以下几个方面展开:Sora的工作原理。作为一...

AIGC动态

2年前 (2024)