标签:预训练

阿里开源多语言大模型,支持全球90%人口

阿里巴巴开源的多语言大模型Babel,旨在解决资源匮乏语言在人工智能领域中的不足。该模型支持25种主流语言,覆盖全球90%以上的人口,包括豪萨语、波斯语、印...

揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」,这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现,DeepSeek-V3-...

苹果开源通用视觉模型:创新训练方法,超1000颗星

苹果公司的研究团队最近发布了一款名为AIMv2的通用多模态视觉模型,该模型具有300M、600M、1.2B和2.7B四种参数规模,并且整体能耗低,使其能够适应手机、PC等...

阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏

阿里通义Qwen发布了新春节礼Qwen2.5-Max,这是一个超大规模的MoE模型,经过超过20万亿token的预训练数据和SFT+RLHF后训练方案的训练。在多个基准测试中,Qwen...

陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

陈丹琦团队提出了一种新的预训练方法,名为元数据调节然后冷却(MeCo),旨在提高大模型的性能并降低训练数据的需求。该方法通过在预训练阶段引入元数据,如...

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

斯坦福大学的研究团队在多模态语言模型领域取得了新进展,提出了一种能够同时处理语音、文本和动作生成任务的模型。该模型能够理解并生成富有表现力的人类动...

Ilya Sutskever 在 NeurIPS 2024 的演讲:预训练时代已经结束了

在NeurIPS 2024会议上,Safe SuperIntelligence实验室创始人、原OpenAI联合创始人兼首席科学家Ilya Sutskever发表了题为《Sequence to sequence learning wit...

OpenAI附议Ilya预训练终结!“但Scaling Law还没死”

在最近举行的NeurIPS会议上,OpenAI的核心成员Noam Brown提出了关于预训练终结和Scaling Law的讨论,引发了广泛关注。Brown指出,从2019年至今,AI领域的巨大...

王小川:AI医疗,代表了 AGI 之后更大的世界

百川智能作为一家专注于医疗领域的大模型创业公司,其创始人王小川在极客公园IF2025创新大会上分享了他对医疗方向、AGI(人工通用智能)及技术进程的深入思考...

李开复为什么这么忙

李开复,作为零一万物的创始人,近期日程繁忙,频繁参与国内外重要活动和公开演讲,成为外界观察明星公司现状的重要窗口。他以高强度的工作状态,平均每天仅...
1 2