深度｜大模型真的在吞噬人类的一切数据吗？

AIGC动态1年前 (2024)发布 Si-Planet

2,098 0 0

文章摘要

弗兰克·赫伯特的科幻巨著《沙丘》中，沙漠星球厄拉科斯下的香料是宇宙中最宝贵的资源，它不仅驱动了太空旅行，还具有延长寿命和扩展意识的能力。
在现实世界中，数据扮演着类似的角色，成为生成式人工智能时代的“香料”，各方势力为争夺数据资源展开激烈竞争。
然而，数据资源并非无限，Epoch AI的研究表明，大语言模型可能在2028年耗尽互联网文本数据。

数据的稀缺性引发了对大模型训练的担忧。
月之暗面创始人杨植麟认为，数据是通向人工通用智能（AGI）的最大挑战，因为现有的数据都是人类产生的，可能根本不存在构建比人类更优AI所需的数据。
Epoch研究员Pablo Villalobos指出，GPT-5的训练需要的token数量远超现有互联网高质量数据的总量。

合成数据作为一种解决方案，基于现有数据进行扩充，对未来训练数据规模至关重要。
但使用AI生成的数据进行训练也存在局限性，可能导致模型崩溃等问题。
目前，大模型厂商主要从网络上抓取公开信息来训练模型，但仅依靠这些内容可能无法满足人工智能的发展需求，企业可能需要利用私有数据或依赖聊天机器人生成的数据。

尽管数据资源的稀缺性引起担忧，但也有观点认为数据量并非瓶颈。
星环科技的孙元浩认为，企业内部有大量未被利用的数据，数据量远超模型处理能力。
他强调，挑战在于整理现有语料训练或微调模型，以及处理非结构化数据的难题。
星环科技提供工具链，帮助企业提升数据处理能力。

摩根大通拥有150PB的专有数据集，而GPT-4仅在不到1PB的数据上训练，显示高质量、多样化且合法可用的训练数据是大模型面临的主要挑战。
数据服务商景联文科技的刘云涛认为，高质量数据的处理是问题的核心，大模型时代需要更专业的数据标注处理。

开源数据对大语言模型的发展至关重要，提供了丰富多样的语料。
然而，国内开源数据集的建设相对不足，导致中文数据的数据孤岛问题。
OpenDataLab正在推动解决研究和开发中的数据需求，发布高质量的大规模AI数据集，并希望更多人参与数据开源事业。

数据采集是产业链的起点，需要遵守数据隐私和版权法规。
自动化工具如网络爬虫的使用带来了数据隐私和安全问题。
数据交易所和交易中心成为解决行业内灰色地带问题的新机制，但建立有效的数据交易体系仍需大量工作。

数据规模并非越大越好，而是高信息密度的语料规模越大越好。
DCLM项目组从Common Crawl中提取并清洗出240T的数据，为数据规模增加的可行性提供了证据。
清华博士秦禹嘉提出，后scaling law时代大家比拼的是scale down，即谁能训练出性价比更高的模型。

随着AI领域的不断发展，对数据的效率和质量的追求成为新趋势。
数据处理的方法，如数据去噪、改写预训练数据等策略，将成为推动大模型发展的关键因素。
数据质量可能成为衡量AI模型性能的新标准，而不仅仅是数据规模。
在数据的海洋中探寻新的可能，解决数据问题，就拥有了未来的钥匙。