推理能力 | 学习AIGC

5款大模型考「山东卷」，Gemini、豆包分别获文理第一名

近期，5款主流大模型参与了2025年山东高考全科闭卷测评，结果显示AI的应试能力已实现质的飞跃。字节跳动Seed团队组织的测评采用750分制，未进行任何提示工程...

AIGC动态

1个月前

Mistral的首个强推理模型：拥抱开源，推理速度快10倍

欧洲人工智能公司Mistral AI近期发布了全新的大语言模型系列Magistral，该系列展现了强大的推理能力，能够通过不断反思解决更复杂的任务。Magistral系列包含...

AIGC动态

2个月前

质疑DeepSeek-R1、Claude Thinking根本不会推理！苹果争议论文翻车了？

当前人工智能领域普遍认为以DeepSeek-R1、Claude 3.7 Sonnet为代表的推理大模型已具备类人思考能力，但苹果团队的最新研究对此提出根本性质疑。通过设计可控...

AIGC动态

2个月前

全球最强编码模型 Claude 4 震撼发布：自主编码7小时、给出一句指令30秒内搞定任务，丝滑无Bug

Anthropic在首届开发者大会上正式发布了Claude 4系列模型，包括Claude Opus 4和Claude Sonnet 4两个型号。Claude Opus 4是该公司迄今为止最强大的AI模型，能...

AI-Agent

2个月前

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

CoRT（Chain-of-Recursive-Thoughts）是一种在语言模型中引入递归思考和自我批判机制的新方法，旨在提升模型的推理能力。与传统的CoT（Chain-of-Thought）相...

AIGC动态

3个月前

清华&通院推出”绝对零”训练法，零外部数据大模型自我博弈解锁推理能力

“绝对零”是一种通过自我博弈训练预训练大模型的新方法，旨在提升模型的推理能力。该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出...

AIGC动态

3个月前

阿里最新开源模型Qwen3到底能不能打？不妨上「通义App」亲自试试

阿里最新发布的通义千问 Qwen3 模型在4月29日凌晨正式开源，并迅速登顶多项大模型测评榜单，引发了广泛关注。Qwen3 在推理、指令遵循、工具调用、多语言能力...

AIGC动态

3个月前

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

近年来，大语言模型在推理能力方面取得了显著进展，尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习（RLVR）被认为是提升模型推理能力的关键技...

AIGC动态

3个月前

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

在大语言模型（LLMs）竞争日益激烈的背景下，推理能力成为评估模型性能的关键指标。测试时缩放（TTS）作为一种新兴策略，通过优化推理过程（如多数投票、蒙特...

AIGC动态

3个月前

选AI比选对象还难！起名黑洞OpenAI的新模型，到底怎么选？

OpenAI近期发布了多款新模型，包括o3、o4-mini和GPT-4.1，每款模型在复杂任务、日常应用和API开发中展现出不同的优势。o3作为OpenAI最新的旗舰模型，专为深度...

AIGC动态

3个月前

标签：推理能力

5款大模型考「山东卷」，Gemini、豆包分别获文理第一名

Mistral的首个强推理模型：拥抱开源，推理速度快10倍

质疑DeepSeek-R1、Claude Thinking根本不会推理！苹果争议论文翻车了？

全球最强编码模型 Claude 4 震撼发布：自主编码7小时、给出一句指令30秒内搞定任务，丝滑无Bug

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

清华&通院推出”绝对零”训练法，零外部数据大模型自我博弈解锁推理能力

阿里最新开源模型Qwen3到底能不能打？不妨上「通义App」亲自试试

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

选AI比选对象还难！起名黑洞OpenAI的新模型，到底怎么选？

热门网址

标签：推理能力

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址