大模型
LLM,VLM,模型
架构创新×模型创新!清微智能全面适配DeepSeek模型推理和训练
大模型时代的到来使算力成为技术发展的核心驱动力,同时也带来了大规模、高弹性、低成本的算力需求挑战。为了应对这一趋势,清微智能推出了基于可重构计算架...
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
群组相对策略优化(GRPO)作为一种在线学习算法,通过使用训练过程中由模型自身生成的数据进行迭代改进,已因其高效性和易用性成为大型语言模型强化学习中的...
美国朝中国DeepSeek打了一记重拳|钛媒体AGI
DeepSeek作为中国开源AI公司,其迅速崛起在全球范围内引发了广泛的关注与讨论。美国企业界、学术界和政府机构已展开多方面的应对行动,试图在技术、政策和投...
“李飞飞团队 50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!
斯坦福大学和华盛顿大学的研究人员开发了一个名为 s1 的人工智能推理模型,该模型以不到 50 美元的云计算成本成功训练而成,并在数学和编码能力测试中表现出...
国产万卡集群落地,为中国AI创新按下“加速键”
随着DeepSeek的出现,AI领域迎来了一场“效率革命”,通过优化模型架构和算法创新显著提升了性能并降低了成本。然而,这种效率提升并未减少算力需求,反而因应...
当DeepSeek改写AI叙事,突破“内存墙”的MRDIMM将是下一个爆点?
DeepSeek作为一款快速崛起的AI应用,正以其开源和低价策略颠覆全球AI行业生态。该应用在上线20天内日活跃用户突破2000万,并以ChatGPT 23%的日活量迅速占领市...
我问deepseek,为啥中科院干不出来一个deepseek?它说:专家们在讨论必要性,而他却抵押了房产开干
中科院未能推出类似DeepSeek的突破性人工智能产品,原因涉及科技创新体制、资源配置、激励机制等多方面因素。其问题可从目标定位、资源配置、人才激励、创新...
网上关于DeepSeek的说法,哪些是错误的?
DeepSeek近期通过采用PTX编程优化了跨芯片通信能力,但这并不意味着它绕过了NVIDIA CUDA生态。PTX是CUDA编程模型的一部分,DeepSeek直接使用PTX编写程序,虽...
清华、东大等发布EMAGE,音频自动生成动作丰富的视频
研究人员联合开发了EMAGE模型,这是一种能够根据音频自动生成全身动作、面部表情和手势的创新工具。其主要功能是生成连贯且逼真的共语手势视频,适用于数字人...
DeepSeek无问西东!先行者早已趟平全国产之路
DeepSeek的迅速走红推动了国产AI产业的全面动员,其影响主要体现在平台层、算力层和应用层。在平台层,华为云、阿里云等云厂商快速接入相关服务,提供性能相...