标签:预训练

阿里通义 Qwen3 上线 ,开源大军再添一名猛将

阿里新一代通义千问开源模型 Qwen3 于4月29日正式上线,用户可通过通义App和网页版体验其强大的智能能力。Qwen3 包含8款不同尺寸的模型,均为全新的“混合推理...

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

近年来,视觉语言模型(VLMs)在多模态AI领域展现了重要的研究价值和应用潜力,但其安全性问题也逐渐受到关注。传统对抗攻击方法依赖预设标签,难以适应大规...

阿里开源多语言大模型,支持全球90%人口

阿里巴巴开源的多语言大模型Babel,旨在解决资源匮乏语言在人工智能领域中的不足。该模型支持25种主流语言,覆盖全球90%以上的人口,包括豪萨语、波斯语、印...

揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」,这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现,DeepSeek-V3-...

苹果开源通用视觉模型:创新训练方法,超1000颗星

苹果公司的研究团队最近发布了一款名为AIMv2的通用多模态视觉模型,该模型具有300M、600M、1.2B和2.7B四种参数规模,并且整体能耗低,使其能够适应手机、PC等...

阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏

阿里通义Qwen发布了新春节礼Qwen2.5-Max,这是一个超大规模的MoE模型,经过超过20万亿token的预训练数据和SFT+RLHF后训练方案的训练。在多个基准测试中,Qwen...

陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

陈丹琦团队提出了一种新的预训练方法,名为元数据调节然后冷却(MeCo),旨在提高大模型的性能并降低训练数据的需求。该方法通过在预训练阶段引入元数据,如...

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

斯坦福大学的研究团队在多模态语言模型领域取得了新进展,提出了一种能够同时处理语音、文本和动作生成任务的模型。该模型能够理解并生成富有表现力的人类动...

Ilya Sutskever 在 NeurIPS 2024 的演讲:预训练时代已经结束了

在NeurIPS 2024会议上,Safe SuperIntelligence实验室创始人、原OpenAI联合创始人兼首席科学家Ilya Sutskever发表了题为《Sequence to sequence learning wit...

OpenAI附议Ilya预训练终结!“但Scaling Law还没死”

在最近举行的NeurIPS会议上,OpenAI的核心成员Noam Brown提出了关于预训练终结和Scaling Law的讨论,引发了广泛关注。Brown指出,从2019年至今,AI领域的巨大...
1 2