一文读懂「腾讯云智算」：AI原生时代，我们需怎样的基础设施？

AIGC动态1年前 (2024)发布 ai-front

3,165 0 0

文章摘要

2024年9月6日，腾讯全球数字生态大会圆满结束，大会主题聚焦于AI和云计算等前沿技术的新机遇。在首日的主论坛上，腾讯推出了三项重要产品：MoE模型腾讯混元Turbo、腾讯云智算以及RAG解决方案，旨在助力中小企业快速打造大模型应用。

腾讯云智算是一个基于AI原生应用驱动的新一代云基础设施，它在AI高性能计算、存储、网络和加速套件等方面进行了系统性优化，为大模型产业发展提供了高效能智能算力。这一产品是业内首个集成了90%大模型用户选择、产业深度实践和公私一体化的AI原生云智算超级底座，旨在打破算存网的“木桶”效应，加速Gen AI应用的创新与落地。

腾讯云副总裁李力在大会上指出，AI是广义云的子集，代表了IT基础设施中不可或缺的一环，能够使业务更加智能。腾讯云智算的推出，标志着AI原生与云原生的一体化演进，它继承了腾讯在云原生上的生态体系，并与AI深度融合。

腾讯云智算的关键特点包括同源同构、云原生和场景驱动。它整合了腾讯云的异构计算解决方案、智能高性能网络IHN解决方案、AIGC存储解决方案等，提供了性能领先、多芯兼容、灵活部署的智算产品能力。在部署方面，腾讯云智算支持公有云、私有云和分布式云的部署，满足不同客户的需求。

在模型训练方面，腾讯云智算的千卡日均故障率降低到了业界水平的三分之一，并通过星脉网络实现了高并行加速比和通信时间的缩短。在模型推理方面，腾讯云发布了自研推理实例NPU计算型PTX2，支持多种场景，提升了推理业务的性价比。

此外，腾讯云还推出了“HAI社区”，汇聚了全球丰富的AI资源，提供极速下载和一键部署功能，降低了模型选型、推理、部署的门槛。腾讯云智算已经在多个领域取得了显著进展，并与多家企业展开了深度合作。

在AI大模型加速解决方案方面，腾讯云推出了TACO，一套异构计算加速软件服务，通过软硬件协同优化提升AI模型的推理效率并降低成本。TACO包含多个组件，如TACO-LLM和TACO-DiT，分别针对大语言模型和图文生成场景进行优化。

腾讯云还发布了智能高性能网络IHN，这是基于星脉网络技术打造的商业化产品，具有大规模、超高速网络等特点，支持万卡规模的集群和3.2T大带宽，提升了AI模型训练和推理的性能。

最后，腾讯云推出了全栈自研的AIGC存储服务，包括对象存储COS和高性能并行文件存储CFS Turbo，提供了国内首个实现存储引擎全面自研的云存储解决方案。这些服务在存储性能、数据管理和数据处理方面提供了全面的支持，已被80%的头部大模型企业采用。

通过这些技术和产品的推出，腾讯展示了其在AI领域的技术实力和对市场需求的深刻理解，预计将为AI应用的开发和部署提供更加坚实的基础，并推动行业技术的发展。