标签:大模型

李开复:超大模型预训练逐渐寡头化,国内将收敛至 DeepSeek、阿里、字节三家

在彭博社的专访中,零一万物 CEO 李开复博士深入探讨了中国大模型行业的发展现状与未来趋势。他指出,DeepSeek 的爆红出圈为中国大模型行业完成了实质意义上...

三大模型巨头比拼思考「幻觉」:DeepSeek 不敌 ChatGPT,Gemini 用词最少

智利大学 CIAE 教育研究所的研究员 Roberto Araya 最近进行了一项关于大模型在应对幻觉问题上的性能对比研究,涉及 Gemini 2.0 Flash、ChatGPT o3-mini 和 De...

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

字节跳动与清华大学AIR联合实验室SIA Lab近期推出了一种名为DAPO的强化学习(RL)算法,该算法在AIME 2024基准测试中表现优异,超越了DeepSeek的GRPO算法。DA...

OpenAI加码写作赛道?阿里最新大模型通用写作能力基准WritingBench,揭秘深度思考能否增进文学表达

阿里研究团队联合中国人民大学和上海交通大学共同开发了WritingBench,这是一个全面评估大模型生成式写作能力的基准。该基准覆盖了六大领域和100个细分场景,...

英伟达开源通用机器人大模型—GR00T N1

全球AI领导者英伟达在“GTC 2025”开发者大会上宣布开源人形机器人通用大模型GR00T N1,该模型能够处理多模态数据,包括语言、图像和视频,适用于家务、工厂等...

比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,

知名大模型训练与开发平台Predibase发布了首个端到端强化微调平台(RFT),这一平台通过奖励函数和自定义函数实现持续强化学习,无需依赖大量标注数据。与传...

AMD开源30亿小参数模型,媲美Qwen-2.5

AMD在官网开源了最新的小参数模型Instella-3B,该模型基于AMD Instinct™ MI300X GPU从头训练,展现了AMD GPU在训练高性能大模型方面的潜力。Instella-3B的性...

零一万物全面拥抱 DeepSeek,李开复:今年第一季度收入接近去年全年

零一万物在ToB商业模式上取得了显著进展,2023年收入超过一亿元,2024年第一季度收入接近去年全年。李开复指出,过去大模型行业在ToB领域面临挑战,主要由于...

DeepSeek 们为什么选择飞书?

人工智能正从技术幻想逐渐转变为时代的主流,大模型的热度持续高涨,从自动驾驶到具身智能,云天励飞、地平线、优必选等新兴AI企业成为关键技术力量。AI的范...

招生信息 | 人大信院 AIM3 实验室招收人工智能方向学生!

AIM3实验室隶属于中国人民大学信息学院计算机系的感知与交互智能计算研究室,专注于多模态智能计算领域的研究。实验室当前的研究方向包括大语言模型、多模态...
1 5 6 7 8 9 52