标签:语言模型
逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散
扩散模型在生成图像和视频方面取得了显著进展,并在处理离散数据(如文本或生物序列)方面展现出潜力。与自回归模型相比,扩散模型具有加速生成和提高输出可...
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
Hrishbh Dalal 的实验中,探索了如何通过强化学习(尤其是 DeepSeek 开发的 GRPO 算法)让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...
比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架
近年来,大型语言模型通过'下一个token预测'范式取得显著进展,但其对表层token的依赖限制了高级推理和长期任务处理能力。针对这一问题,Meta等机构的研究者...
原来,这些顶级大模型都是蒸馏的
中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在新论文《Distillation Quantification for Large Language Models》中探讨了大型语言模型(LL...
全面打破GPT-4垄断、DeepSeek打下训练成本…2024年大模型领域进展全复盘
2024年是生成式人工智能(AI)取得显著进步的一年,特别是在大型语言模型(LLM)领域。英国独立研究员Simon Willison回顾了过去一年中的关键发展和主题。以下...
全球百模争霸,国产大模型拿下多个冠军!智源FlagEval全球评测榜单出炉
智源研究院于2024年12月19日发布了下半年大模型综合评测结果,涉及100余个开源和商业闭源模型,覆盖文本、语音、图像和视频等多个领域。此次评测在5月的基础...
智源发布FlagEval「百模」评测结果,丈量模型生态变局
智源研究院于2024年12月19日发布了对国内外100余个大模型的综合及专项评测结果。此次评测不仅扩展了任务解决能力的内涵,新增了数据处理、高级编程和工具调用...
100+大模型综测结果出炉!智源发布FlagEval“百模”评测结果,覆盖文本语音图片视频多种模态
智源研究院于2024年12月19日发布了国内外100余个大模型的综合及专项评测结果。评测显示,大模型发展更注重综合能力提升与实际应用,多模态模型发展迅速,而语...
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
斯坦福大学的研究团队在多模态语言模型领域取得了新进展,提出了一种能够同时处理语音、文本和动作生成任务的模型。该模型能够理解并生成富有表现力的人类动...
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
在认知科学领域,关于语言是否用于思考或交流的辩论一直存在。随着大型语言模型(LLM)和思维链(Chain of Thought, CoT)的兴起,语言已成为机器推理的默认...