标签:推理能力
全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug
Anthropic在首届开发者大会上正式发布了Claude 4系列模型,包括Claude Opus 4和Claude Sonnet 4两个型号。Claude Opus 4是该公司迄今为止最强大的AI模型,能...
强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?
CoRT(Chain-of-Recursive-Thoughts)是一种在语言模型中引入递归思考和自我批判机制的新方法,旨在提升模型的推理能力。与传统的CoT(Chain-of-Thought)相...
清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力
“绝对零”是一种通过自我博弈训练预训练大模型的新方法,旨在提升模型的推理能力。该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出...
阿里最新开源模型Qwen3到底能不能打?不妨上「通义App」亲自试试
阿里最新发布的通义千问 Qwen3 模型在4月29日凌晨正式开源,并迅速登顶多项大模型测评榜单,引发了广泛关注。Qwen3 在推理、指令遵循、工具调用、多语言能力...
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技...
TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
在大语言模型(LLMs)竞争日益激烈的背景下,推理能力成为评估模型性能的关键指标。测试时缩放(TTS)作为一种新兴策略,通过优化推理过程(如多数投票、蒙特...
选AI比选对象还难!起名黑洞OpenAI的新模型,到底怎么选?
OpenAI近期发布了多款新模型,包括o3、o4-mini和GPT-4.1,每款模型在复杂任务、日常应用和API开发中展现出不同的优势。o3作为OpenAI最新的旗舰模型,专为深度...
刚刚,豆包1.5·深度思考模型上线,特供「视觉版本」,大模型多模态推理的时代真来了
近期,大模型领域迎来了一系列重要进展,尤其是豆包大模型家族的更新和火山引擎的创新发布。 豆包大模型家族推出了「豆包 1.5・深度思考模型」,包含两个版本...
让奥特曼直呼“天才”的o3 和 o4-mini,被曝捏造事实问题严重!拓展强化学习、图像思维链等亮点成陪衬?
OpenAI 最新发布了 OpenAI o3 和 o4-mini 模型,标志着 ChatGPT 能力的一次飞跃。这些模型首次实现了自主调用并整合 ChatGPT 内的全量工具,包括网页搜索、Py...
OpenAI发布o3/o4-mini两大推理模型,要把Agent吞进模型里了
OpenAI近期发布了两个新模型o3和o4-mini,标志着其在人工智能领域的进一步突破。这两个模型不仅在编码、数学、科学等传统领域展现出强大的推理能力,还首次实...