基准测试 | 学习AIGC

GPT-5.2已上线24小时：差评如潮！

OpenAI最新发布的GPT-5.2模型在官方宣传中被称为'迄今为止在专业知识工作上最强大的模型系列'，并在多项基准测试中刷新了SOTA水平。然而，用户反馈却呈现显著...

AIGC动态

1天前

Meta超级智能实验室又发论文，模型混一混，性能直接SOTA

大语言模型（LLM）的训练通常依赖大量算力和时间资源，而模型Souping（Model Souping）作为一种轻量级方法，通过对同一架构的多个模型进行权重平均，能够融合...

AIGC动态

3周前

模型即智能体，Kimi K2 Thinking多项评估超越顶尖闭源模型，300轮工具调用不疲倦

月之暗面（Moonshot AI）发布的Kimi K2 Thinking模型代表了当前开源思考模型的最高水平。该模型基于'模型即智能体'理念开发，具备自主规划与多轮工具调用能力...

AIGC动态

1个月前

全球第二、国内第一！最强文本的文心5.0 Preview一手实测来了

百度文心5.0 Preview模型在LMArena全球文本竞技场测试中取得1432分，与OpenAI的GPT-4.5 Preview及Anthropic的两款Claude模型并列全球第二，同时位列国内第一...

AIGC动态

1个月前

前Meta大神创业，用强化学习打造PokeeResearch-7B模型，刷新AI深度研究SOTA

Pokee AI近期发表的论文《借助基于AI反馈的强化学习和稳健推理框架实现高效深度研究》展示了其70亿参数模型PokeeResearch-7B的突破性表现。该模型通过创新的...

AIGC动态

2个月前

上海AI实验室FlowSearch刷新深度研究新纪录，结构化知识流大幅提升模型性能

上海人工智能实验室开发的FlowSearch系统代表了AI智能体在深度研究领域的重要突破。该系统通过“动态结构化知识流”架构，成功克服了传统线性AI工作流在科研场...

AIGC动态

2个月前

Claude Sonnet 4.5 上手：一个未来 Agent 的雏形出现了

Anthropic最新发布的Claude Sonnet 4.5编程模型在多个领域展现出显著进步。该模型在OSWorld电脑使用测试中以61.4%的成绩成为最擅长操作电脑的AI，同时在金融...

AI-Agent

2个月前

Qwen3小升级即SOTA，开源大模型王座快变中国内部赛了

开源大模型领域近期迎来了显著的技术进展，尤其是中国市场的竞争愈发激烈。Kimi K2作为一款备受关注的模型，其1T的总参数量在短时间内被Qwen3的新版本超越。Q...

AIGC动态

5个月前

刚刚，奥特曼放出ChatGPT「统一智能体」！惊呼真AGI，最卷打工人来了

ChatGPT agent的发布标志着人工智能领域的一次重大突破，它首次将Operator、Deep Research和ChatGPT三大技术优势无缝融合，形成了一个统一的智能体系统。这一...

AI-Agent

5个月前

刚刚，OpenAI通用智能体ChatGPT Agent正式登场

OpenAI最新发布的ChatGPT Agent标志着人工智能技术迈入新阶段。这一通用智能体能够自主规划并调用多种工具完成复杂任务，包括自动浏览日历、生成可编辑PPT、...

AI-Agent

5个月前

标签：基准测试

GPT-5.2已上线24小时：差评如潮！

Meta超级智能实验室又发论文，模型混一混，性能直接SOTA

模型即智能体，Kimi K2 Thinking多项评估超越顶尖闭源模型，300轮工具调用不疲倦

全球第二、国内第一！最强文本的文心5.0 Preview一手实测来了

前Meta大神创业，用强化学习打造PokeeResearch-7B模型，刷新AI深度研究SOTA

上海AI实验室FlowSearch刷新深度研究新纪录，结构化知识流大幅提升模型性能

Claude Sonnet 4.5 上手：一个未来 Agent 的雏形出现了

Qwen3小升级即SOTA，开源大模型王座快变中国内部赛了

刚刚，奥特曼放出ChatGPT「统一智能体」！惊呼真AGI，最卷打工人来了

刚刚，OpenAI通用智能体ChatGPT Agent正式登场

热门网址

标签：基准测试

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址