大模型

架构创新×模型创新！清微智能全面适配DeepSeek模型推理和训练

大模型时代的到来使算力成为技术发展的核心驱动力，同时也带来了大规模、高弹性、低成本的算力需求挑战。为了应对这一趋势，清微智能推出了基于可重构计算架...

AIGC动态

7个月前

群组相对策略优化（GRPO）作为一种在线学习算法，通过使用训练过程中由模型自身生成的数据进行迭代改进，已因其高效性和易用性成为大型语言模型强化学习中的...

AIGC动态

7个月前

DeepSeek作为中国开源AI公司，其迅速崛起在全球范围内引发了广泛的关注与讨论。美国企业界、学术界和政府机构已展开多方面的应对行动，试图在技术、政策和投...

AIGC动态

7个月前

斯坦福大学和华盛顿大学的研究人员开发了一个名为 s1 的人工智能推理模型，该模型以不到 50 美元的云计算成本成功训练而成，并在数学和编码能力测试中表现出...

AIGC动态

7个月前

随着DeepSeek的出现，AI领域迎来了一场“效率革命”，通过优化模型架构和算法创新显著提升了性能并降低了成本。然而，这种效率提升并未减少算力需求，反而因应...

AIGC动态

7个月前

DeepSeek作为一款快速崛起的AI应用，正以其开源和低价策略颠覆全球AI行业生态。该应用在上线20天内日活跃用户突破2000万，并以ChatGPT 23%的日活量迅速占领市...

AIGC动态

7个月前

中科院未能推出类似DeepSeek的突破性人工智能产品，原因涉及科技创新体制、资源配置、激励机制等多方面因素。其问题可从目标定位、资源配置、人才激励、创新...

AIGC动态

7个月前

DeepSeek近期通过采用PTX编程优化了跨芯片通信能力，但这并不意味着它绕过了NVIDIA CUDA生态。PTX是CUDA编程模型的一部分，DeepSeek直接使用PTX编写程序，虽...

AIGC动态

7个月前

研究人员联合开发了EMAGE模型，这是一种能够根据音频自动生成全身动作、面部表情和手势的创新工具。其主要功能是生成连贯且逼真的共语手势视频，适用于数字人...

AIGC动态

7个月前

DeepSeek的迅速走红推动了国产AI产业的全面动员，其影响主要体现在平台层、算力层和应用层。在平台层，华为云、阿里云等云厂商快速接入相关服务，提供性能相...

AIGC动态

7个月前