标签:合成数据
Llama架构比不上GPT2?神奇token提升10倍记忆?
这篇文章主要介绍了朱泽园和李远志最新研究的内容,标题为《语言模型物理学 Part 3.3:知识的 Scaling Laws》。他们通过海量实验总结了12条定律,为语言模型...
没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路
2021年底,OpenAI面临数据供应短缺,耗尽了互联网上所有质量稳定的英语文本库。为开发下一代AI系统,他们开发了Whisper语音识别工具,转录YouTube视频中的音...
OpenAI曾转录100万小时视频数据,训练GPT-4
随着人工智能技术的飞速发展,大语言模型(LLM)已成为科技巨头们争夺的新战场。专注于AIGC领域的专业社区密切关注着微软 & OpenAI、百度文心一言、讯飞星火...
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
【新智元导读】随着人工智能技术的飞速发展,数据成为了AI模型训练的关键资源。然而,高质量数据的稀缺性已经成为了AI行业面临的一个严峻挑战。OpenAI、Anthr...
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!
随着2026年数据荒的临近,硅谷的科技巨头们为了获取AI训练数据展开了激烈的竞争,不惜斥巨资购买互联网上的各类数据,包括旧照片、视频和聊天记录。这种对数...
保时捷押注、估值 60 亿美元,这家自动驾驶公司做对了什么?
全球自动驾驶公司普遍面临挑战,但Applied Intuition凭借其创新的「仿真测试」软件和AI技术,成功获得保时捷等多家知名投资者的青睐,并在最新一轮融资中筹集...
1
2