文章摘要
【关 键 词】 数据稀缺、AI挑战、合成数据、开源数据、数据隐私
弗兰克·赫伯特的科幻巨著《沙丘》中,沙漠星球厄拉科斯下的香料是宇宙中最宝贵的资源,它不仅驱动了太空旅行,还具有延长寿命和扩展意识的能力。
在现实世界中,数据扮演着类似的角色,成为生成式人工智能时代的“香料”,各方势力为争夺数据资源展开激烈竞争。
然而,数据资源并非无限,Epoch AI的研究表明,大语言模型可能在2028年耗尽互联网文本数据。
数据的稀缺性引发了对大模型训练的担忧。
月之暗面创始人杨植麟认为,数据是通向人工通用智能(AGI)的最大挑战,因为现有的数据都是人类产生的,可能根本不存在构建比人类更优AI所需的数据。
Epoch研究员Pablo Villalobos指出,GPT-5的训练需要的token数量远超现有互联网高质量数据的总量。
合成数据作为一种解决方案,基于现有数据进行扩充,对未来训练数据规模至关重要。
但使用AI生成的数据进行训练也存在局限性,可能导致模型崩溃等问题。
目前,大模型厂商主要从网络上抓取公开信息来训练模型,但仅依靠这些内容可能无法满足人工智能的发展需求,企业可能需要利用私有数据或依赖聊天机器人生成的数据。
尽管数据资源的稀缺性引起担忧,但也有观点认为数据量并非瓶颈。
星环科技的孙元浩认为,企业内部有大量未被利用的数据,数据量远超模型处理能力。
他强调,挑战在于整理现有语料训练或微调模型,以及处理非结构化数据的难题。
星环科技提供工具链,帮助企业提升数据处理能力。
摩根大通拥有150PB的专有数据集,而GPT-4仅在不到1PB的数据上训练,显示高质量、多样化且合法可用的训练数据是大模型面临的主要挑战。
数据服务商景联文科技的刘云涛认为,高质量数据的处理是问题的核心,大模型时代需要更专业的数据标注处理。
开源数据对大语言模型的发展至关重要,提供了丰富多样的语料。
然而,国内开源数据集的建设相对不足,导致中文数据的数据孤岛问题。
OpenDataLab正在推动解决研究和开发中的数据需求,发布高质量的大规模AI数据集,并希望更多人参与数据开源事业。
数据采集是产业链的起点,需要遵守数据隐私和版权法规。
自动化工具如网络爬虫的使用带来了数据隐私和安全问题。
数据交易所和交易中心成为解决行业内灰色地带问题的新机制,但建立有效的数据交易体系仍需大量工作。
数据规模并非越大越好,而是高信息密度的语料规模越大越好。
DCLM项目组从Common Crawl中提取并清洗出240T的数据,为数据规模增加的可行性提供了证据。
清华博士秦禹嘉提出,后scaling law时代大家比拼的是scale down,即谁能训练出性价比更高的模型。
随着AI领域的不断发展,对数据的效率和质量的追求成为新趋势。
数据处理的方法,如数据去噪、改写预训练数据等策略,将成为推动大模型发展的关键因素。
数据质量可能成为衡量AI模型性能的新标准,而不仅仅是数据规模。
在数据的海洋中探寻新的可能,解决数据问题,就拥有了未来的钥匙。
原文和模型
【原文链接】 阅读原文 [ 5023字 | 21分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★