
文章摘要
【关 键 词】 天翼AI、高质量数据、数据集建设、数据应用、AI愿景
“得数据者得天下”,高质量数据集对AI模型的准确性、泛化性和可用性至关重要。中国电信天翼AI打造了超10万亿tokens通用大模型语料数据和覆盖14个关键行业的专业数据集,总存储量达350TB。其星辰MaaS平台是建设高质量数据集的关键,通过基模、数据工具链、模型工具链和智能体四大核心协同运作,构建“数据—模型—服务”的完整闭环。
天翼AI死磕高质量数据集,有四方面考量。战略上,国家重视AI发展,中国电信需自主建设数据基础设施,加速AI关键技术突破。市场需求上,对内要服务20余个重点领域智能化升级,对外要为多行业研发大模型和构建智能体应用。运营商自身具备庞大的数据基础和广泛应用场景,便于深耕该领域。使命责任上,要打造安全可信的数据集,赋能千行百业转型。
在将原始数据转化为高质量数据集方面,天翼AI打造了覆盖“采、存、算、管 – 标、训、推、评 – 用”全生命周期的能力体系。数据工具链可高效处理多种类型数据,还能通过数据合成技术生成特殊场景数据集。模型工具链支持多种标注任务,提升标注效率,最终得到不同用途的模型。平台还通过数据回流机制持续优化模型效果。
对于高质量数据集的标准,天翼AI认为没有绝对标准,需根据模型训练阶段和数据应用类型评判。如纺织行业缺陷数据集,应具备全面性、多样性和精准标注等特点,能解决实际问题的数据集才是高质量的。
在应用方面,天翼AI解决了通用大模型在垂直行业落地难的问题。为大型央企提供全链路解决方案,如助力物流集团构建数据集和研发模型。在支撑国家级数据标注基地建设中,扮演产业生态规划者、产能运营者和新职业培育者角色。在国计民生领域,已在多个行业和场景实现规模化落地,如医疗、文旅、农业等。此外,算法和算力也是影响智能服务效果的关键因素,天翼AI自主打造星辰系列大模型,保障模型安全。
天翼AI的最终愿景是成为国家战略科技力量和领先的通用人工智能服务提供商。为此,将在技术上追求领先,应用上追求普惠,生态上保持开放,人才上研用一体,持续强化赋能,担起社会责任。
原文和模型
【原文链接】 阅读原文 [ 6674字 | 27分钟 ]
【原文作者】 量子位
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★