标签:强化学习

阿里开源新模型:媲美DeepSeek-R1,参数大降20倍!

阿里巴巴近日开源了其最新的大模型QwQ-32B,该模型支持Apache 2.0开源协议,允许商业化使用。QwQ-32B在多个主流测试基准中表现优异,能够与DeepSeek的R1-671B...

图解 DeepSeek-R1

DeepSeek-R1 是人工智能领域的一个重要进展,特别是在机器学习研发社区中引起了广泛关注。该模型的核心特点在于其开放权重设计以及借鉴了 OpenAI O1 推理模型...

狂揽1.3亿美金!AlphaGo大神组队Gemini大牛,用RL打造超级智能,英伟达抢投

由DeepMind资深研究员Ioannis Antonoglou和Gemini核心贡献者Misha Laskin联合创立的Reflection AI,近日宣布完成1.3亿美元融资,估值达到5.55亿美元。这家初...

强化学习成帮凶,对抗攻击LLM有了新方法

威斯康星大学麦迪逊分校的研究团队最近发现,强化学习可以被用于实施黑盒逃避攻击,即通过生成对抗样本来欺骗机器学习模型。这一发现揭示了强化学习在攻击AI...

阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

阿里最新发布的QwQ-32B推理模型,凭借320亿参数的表现,成功追平了当前公认的最强开源模型DeepSeek-R1(6710亿参数),并在多项基准测试中超越了o1-mini模型...

阿里开源QwQ-32B,性能比肩R1。这是一次压倒性的创新。

阿里巴巴最新发布的推理模型QwQ-32B,以其320亿参数的规模,展现了与6710亿参数的DeepSeek-R1相媲美的性能。这一突破意味着,在更小的设备上运行更强大的推理...

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

由UCLA等机构组成的研究团队在全球首次实现了在20亿参数的非监督微调模型上进行多模态推理的突破,这一成果被称为DeepSeek-R1的「啊哈时刻」。研究团队在未经...

超越人类!DeepMind强化学习新突破:AI在「我的世界」中封神!

DeepMind研究团队通过改进基于Transformer世界模型的强化学习技术,在Craftax-classic游戏中实现了AI智能体对人类的超越。该智能体仅需100万步环境交互即可获...

DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

总结来说,需要确认标签是否符合字数限制,并且摘要是否全面且符合格式要求。如果有错误,需要进行修正。

OpenAI Deep Research专访:Agent 的未来是端到端、强化学习微调

OpenAI Deep Research 和 Grok Deep Search 展示了人工智能在复杂任务处理上的重大突破。推理模型经过强化学习端到端训练后,处理复杂任务的能力有了质的飞跃...
1 3 4 5 6 7 15