语言模型 | 第 2 页

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

CoRT（Chain-of-Recursive-Thoughts）是一种在语言模型中引入递归思考和自我批判机制的新方法，旨在提升模型的推理能力。与传统的CoT（Chain-of-Thought）相...

AIGC动态

4个月前

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

2015年发布的论文《End-To-End Memory Networks》虽然在当时被Transformer的光芒所掩盖，但它包含了当前大型语言模型的许多关键要素。这篇论文首次完全用注意...

AIGC动态

4个月前

颠覆传统RAG，创新大模型检索增强—Insight-RAG

Megagon实验室的研究人员提出了一种创新框架Insight-RAG，旨在解决传统RAG方法在检索深度和多源信息整合方面的不足。传统RAG方法依赖表面相关性检索文档，容...

AIGC动态

4个月前

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

大规模强化学习在激发大型语言模型的复杂推理行为方面展现出显著效果，OpenAI 的 o1 系列和 DeepSeek-R1 的成功便是明证。然而，这些模型的核心训练方法在技...

AIGC动态

4个月前

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

香港大学与华为诺亚方舟实验室合作开发的扩散推理模型 Dream 7B，在开源扩散语言模型领域取得了新的突破，成为当前性能最佳的模型。该模型在通用能力、数学推...

AIGC动态

5个月前

Anthropic亲自公开Claude脑回路！

Anthropic公司近期公布了一项关于大模型思考过程的研究，通过构建「AI显微镜」来识别模型中的活动模式和信息流动。这项研究旨在揭示像Claude这样的大语言模型...

AIGC动态

5个月前

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合 | ICLR 2025

块离散去噪扩散语言模型（BD3-LMs）结合了自回归模型和扩散模型的优势，解决了现有扩散模型在生成长度受限、推理效率低和生成质量低等方面的问题。通过块状扩...

AIGC动态

5个月前

如何在 Java 中基于 LangChain 编写大语言模型应用

提示工程是调整 LLM 的关键方法之一，通过构建能够被 LLM 理解和解释的文本，帮助模型执行特定任务。提示工程不仅能够促进 LLM 的安全使用，还能增强其能力，...

AIGC动态

5个月前

AI Agent 发展史：从 RL 驱动到大模型驱动｜AIR 2025

Manus的出现将智能体推入AI格局的前列，尽管存在争议，但其工程创新仍被视为一种护城河。在AI智能体推理与决策研讨会（AIR 2025）上，多位学术界和工业界的研...

AI-Agent

5个月前

逐字生成非最优？试试逐「块」生成！Block Diffusion打通了自回归与扩散

扩散模型在生成图像和视频方面取得了显著进展，并在处理离散数据（如文本或生物序列）方面展现出潜力。与自回归模型相比，扩散模型具有加速生成和提高输出可...

AIGC动态

6个月前

标签：语言模型

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

颠覆传统RAG，创新大模型检索增强—Insight-RAG

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

Anthropic亲自公开Claude脑回路！

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合 | ICLR 2025

如何在 Java 中基于 LangChain 编写大语言模型应用

AI Agent 发展史：从 RL 驱动到大模型驱动｜AIR 2025

逐字生成非最优？试试逐「块」生成！Block Diffusion打通了自回归与扩散

热门网址

标签：语言模型

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址