标签:大模型
小红书开源首个大模型,11万亿非合成训练数据
小红书近期开源了其首个大模型dots.llm1,这是一个1420亿参数的专家混合模型(MoE),在推理过程中仅激活140亿参数,显著降低了训练和推理成本。dots.llm1的...
腾讯顶尖学生招募启动!高中生可直接参与大模型/具身智能前沿研究
腾讯推出的“星火挑战营”旨在招募顶尖学生,特别是高二、高三学生,参与前沿技术的研究与实践。今年的挑战营特别聚焦于大模型领域,新增了四个研究方向:超长...
你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%
ChatGPT等大模型技术的快速发展,将AI应用推向了「对话」场景,直接引发了AI技术的爆炸式增长。用户可以通过多轮对话逐步完善指令,催生出「跟AI打电话」等创...
没想到,最Open的开源新模型,来自小红书
小红书近期开源了其首个自研大模型dots.llm1,该模型由小红书hi lab团队研发,参数总量为142B,激活参数为14B,属于中等规模的MoE(Mixture of Experts)模型...
别被MCP的包装骗了!重构系统、向智能体转型,CEO亲述:关键时刻还是RPA兜底?
实在智能成立于2018年,以RPA(机器人流程自动化)为起点,融合AI技术,致力于通过人工智能技术助力人机协同,提供超自动化解决方案。随着技术的发展,实在智...
超6.4亿次下载!智源发布具身大脑等五大新技术,王仲远:具身智能的淘汰赛还没开始
第七届智源大会于6月6日在北京召开,北京智源人工智能研究院发布了“悟界”系列大模型,标志着AI技术从数字世界向物理世界的加速迈进。这一系列包括原生多模态...
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
智源大会2024以“AI春晚”规格拉开帷幕,人形机器人冠军天工与宇树G1同台展示技能迭代成果。宇树G1凭借灵活拳击动作展现运动控制突破,天工2.0版本则从长跑转向...
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
在大模型竞赛日益激烈的背景下,强化学习后训练(RL后训练)已成为突破大语言模型(LLM)性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功,均得益于...
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
随着大语言模型(LLM)的快速发展,扩展Transformer架构已成为推动人工智能领域进步的关键途径。然而,LLM参数规模的指数级增长带来了高昂的训练成本和推理效...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...