标签:语言模型

爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合 | ICLR 2025

块离散去噪扩散语言模型(BD3-LMs)结合了自回归模型和扩散模型的优势,解决了现有扩散模型在生成长度受限、推理效率低和生成质量低等方面的问题。通过块状扩...

如何在 Java 中基于 LangChain 编写大语言模型应用

提示工程是调整 LLM 的关键方法之一,通过构建能够被 LLM 理解和解释的文本,帮助模型执行特定任务。提示工程不仅能够促进 LLM 的安全使用,还能增强其能力,...

AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025

Manus的出现将智能体推入AI格局的前列,尽管存在争议,但其工程创新仍被视为一种护城河。在AI智能体推理与决策研讨会(AIR 2025)上,多位学术界和工业界的研...

逐字生成非最优?试试逐「块」生成!Block Diffusion打通了自回归与扩散

扩散模型在生成图像和视频方面取得了显著进展,并在处理离散数据(如文本或生物序列)方面展现出潜力。与自回归模型相比,扩散模型具有加速生成和提高输出可...

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

Hrishbh Dalal 的实验中,探索了如何通过强化学习(尤其是 DeepSeek 开发的 GRPO 算法)让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...

比知识蒸馏好用,田渊栋等提出连续概念混合,再度革新Transformer预训练框架

近年来,大型语言模型通过'下一个token预测'范式取得显著进展,但其对表层token的依赖限制了高级推理和长期任务处理能力。针对这一问题,Meta等机构的研究者...

原来,这些顶级大模型都是蒸馏的

中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在新论文《Distillation Quantification for Large Language Models》中探讨了大型语言模型(LL...

全面打破GPT-4垄断、DeepSeek打下训练成本…2024年大模型领域进展全复盘

2024年是生成式人工智能(AI)取得显著进步的一年,特别是在大型语言模型(LLM)领域。英国独立研究员Simon Willison回顾了过去一年中的关键发展和主题。以下...

全球百模争霸,国产大模型拿下多个冠军!智源FlagEval全球评测榜单出炉

智源研究院于2024年12月19日发布了下半年大模型综合评测结果,涉及100余个开源和商业闭源模型,覆盖文本、语音、图像和视频等多个领域。此次评测在5月的基础...

智源发布FlagEval「百模」评测结果,丈量模型生态变局

智源研究院于2024年12月19日发布了对国内外100余个大模型的综合及专项评测结果。此次评测不仅扩展了任务解决能力的内涵,新增了数据处理、高级编程和工具调用...
1 2 3 10