标签:模型
基于能量的Transformer横空出世!全面超越主流模型35%
弗吉尼亚大学团队提出了一种名为EBT(Energy-Based Transformers)的新架构,通过基于能量的机制,首次在跨模态以及数据、参数、计算量和模型深度等多个维度...
开源DeepSeek R1增强版:推理效率快200%,创新AoE架构
德国知名技术咨询公司TNG开源了DeepSeek R1的增强版DeepSeek-TNG-R1T2-Chimera。该模型基于DeepSeek的R1-0528、R1和V3-0324三大模型混合开发而成,并采用了一...
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
2024年9月,智源研究院发布了统一图像生成模型OmniGen,该模型在单一架构内支持多种图像生成任务,包括文本生成图像、图像编辑和主题驱动图像生成。用户仅需...
RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开
著名大模型训练平台Together.ai与Agentica联合开源了创新的AI Agent框架DeepSWE。该框架基于阿里最新开源的Qwen3-32B模型,完全通过强化学习训练而成。DeepSW...
o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦
近年来,大型语言模型(LLM)的快速发展促使研究人员寻找更有效的评估工具,以衡量这些模型在感知、记忆和推理等方面的能力。在这一背景下,经典游戏如《宝可...
字节腾讯们齐聚,近万开发者人挤人,魔搭终成所有人的魔搭
2022年8月,一个名为ModelScope的AI平台悄然进入开发者视野,尽管当时大模型尚未流行,但这一平台迅速吸引了大量关注,浏览量在不到三周内达到四五十万。这标...
只用2700万参数,这个推理模型超越了DeepSeek和Claude
大语言模型在复杂推理任务中面临任务分解复杂、数据需求大以及高延迟等问题,当前的思维链(CoT)技术存在局限性。为了解决这些问题,Sapient Intelligence的...
文心大模型 4.5 系列正式开源,涵盖 10 余款模型
百度于6月30日正式开源了文心大模型4.5系列,涵盖10款不同参数规模的模型,包括47B、3B激活参数的混合专家(MoE)模型和0.3B参数的稠密型模型。这些模型已在...
华为盘古大模型开源,推理方案、基础代码全公开!
华为今日宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型以及基于昇腾的模型推理技术。这一举措被视为华为推进昇腾生态战略的关键步骤...
盘一盘,2017年Transformer之后,LLM领域的重要论文
Andrej Karpathy 的最新演讲提出了「软件 3.0」的概念,强调自然语言正在成为新的编程接口,而 AI 模型负责执行具体任务。这一变革不仅影响开发者,还深刻改...