星环科技孙元浩：语料已经是大模型最大的挑战

AIGC动态1年前 (2024)发布 almosthuman2014

2,469 0 0

文章摘要

星环科技创始人及CEO孙元浩认为，当前大模型训练并未将人类互联网数据穷尽，各行各业企业内部的数据还未被充分利用。高质量的数据可以显著提高大模型的准确性。然而，企业内部数据多为非结构化、海量、多形式的小文件，标注和校正专业数据存在门槛，对文件系统、知识库系统、语料开发系统等提出新要求。

为应对挑战，星环科技采取了以下措施：
1. 升级大数据平台，提高文件系统支持能力和数据存储效率。
2. 增加Python接口，提高语料处理效率和灵活性。
3. 推出分布式Python引擎，提高处理海量语料的能力。
4. 优化向量数据库，提高召回准确度和分布式性能。
5. 构建知识图谱，弥补向量召回准确度不足。
6. 开发语料开发工具，自动化或半自动化处理文档类型、语音视频。
7. 提供大模型工具链，提高构建效率和管理能力。
8. 构建AI原生应用，提高企业内部信息检索和数据分析效率。
9. 支持多种模型和数据源，提高数据处理灵活性和适应性。

孙元浩认为，提升语料质量是大模型提升准确性的最大挑战。模型结构和训练方法已不是秘密，关键在于缺乏高质量语料。他提出以下提升模型准确率的方法：
1. 构建外挂知识库，让模型参考知识库内容进行写作或分析。
2. 对大模型进行微调，学习特定领域知识和语言习惯。
3. 持续训练，提高模型在特定领域的精准度和回答能力。
4. 提供语料开发工具，帮助企业整理和清洗语料。
5. 结合多种方法，进一步提高模型准确率。

星环科技的目标是将大模型训练成理科生，让其能够进行数学分析和理解自然科学各领域知识。通过AI Infra工具，企业可将多模语料转换为专业领域知识，构建知识壁垒。