标签:模型
前 OpenAI 研究员 Kevin Lu:别折腾 RL 了,互联网才是让大模型进步的关键
前 OpenAI 研究员 Kevin Lu 在其博客文章《The Only Important Technology Is The Internet》中提出,互联网而非 Transformer 等模型架构,才是推动人工智能...
马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
马斯克在Grok 4发布会上宣布,该模型在所有学科上已达到博士后水平,并可能在今年内实现科学新发现。这一声明引发了全球网友的兴趣,尽管价格高昂,许多人仍...
基于能量的Transformer横空出世!全面超越主流模型35%
弗吉尼亚大学团队提出了一种名为EBT(Energy-Based Transformers)的新架构,通过基于能量的机制,首次在跨模态以及数据、参数、计算量和模型深度等多个维度...
开源DeepSeek R1增强版:推理效率快200%,创新AoE架构
德国知名技术咨询公司TNG开源了DeepSeek R1的增强版DeepSeek-TNG-R1T2-Chimera。该模型基于DeepSeek的R1-0528、R1和V3-0324三大模型混合开发而成,并采用了一...
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
2024年9月,智源研究院发布了统一图像生成模型OmniGen,该模型在单一架构内支持多种图像生成任务,包括文本生成图像、图像编辑和主题驱动图像生成。用户仅需...
RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开
著名大模型训练平台Together.ai与Agentica联合开源了创新的AI Agent框架DeepSWE。该框架基于阿里最新开源的Qwen3-32B模型,完全通过强化学习训练而成。DeepSW...
o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦
近年来,大型语言模型(LLM)的快速发展促使研究人员寻找更有效的评估工具,以衡量这些模型在感知、记忆和推理等方面的能力。在这一背景下,经典游戏如《宝可...
字节腾讯们齐聚,近万开发者人挤人,魔搭终成所有人的魔搭
2022年8月,一个名为ModelScope的AI平台悄然进入开发者视野,尽管当时大模型尚未流行,但这一平台迅速吸引了大量关注,浏览量在不到三周内达到四五十万。这标...
只用2700万参数,这个推理模型超越了DeepSeek和Claude
大语言模型在复杂推理任务中面临任务分解复杂、数据需求大以及高延迟等问题,当前的思维链(CoT)技术存在局限性。为了解决这些问题,Sapient Intelligence的...
文心大模型 4.5 系列正式开源,涵盖 10 余款模型
百度于6月30日正式开源了文心大模型4.5系列,涵盖10款不同参数规模的模型,包括47B、3B激活参数的混合专家(MoE)模型和0.3B参数的稠密型模型。这些模型已在...