模型性能 | 学习AIGC

32B 模型横扫 SWE 任务，这款代码智能体模型有点东西

2025年被预测为AI软件工程元年，以AI驱动的自动化软件工程正在重构开发范式。昆仑万维近期开源的代码智能体Skywork-SWE-32B标志着开源生态对抗闭源巨头的重要...

AIGC动态

3个月前

斯坦福2025 AI Index报告来了：DeepSeek在全文中被提到45次

斯坦福大学发布的《2025 AI Index》报告全面梳理了人工智能领域的最新进展与挑战。报告指出，尽管人工智能技术在过去几年取得了显著突破，但同时也面临着技术...

AIGC动态

5个月前

Llama 4在测试集上训练？内部员工、官方下场澄清，LeCun转发

Meta最新发布的大模型Llama 4在发布后引发了广泛讨论，但其实际表现与预期存在较大差距。尽管Meta官方宣称Llama 4在多个基准测试中取得了优异成绩，例如在大...

AIGC动态

5个月前

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA，旨在解决当前大模型通用知识推理评估体系的局限性。该基准覆盖285个研究生级学科，包含...

AIGC动态

6个月前

谷歌提出Titans：突破算力限制，扩展上下文

谷歌研究院推出的Titans框架通过创新架构设计突破了大语言模型的长上下文处理瓶颈，将模型上下文窗口扩展至200万token，同时仅增加1.8倍算力消耗。该框架在语...

AIGC动态

7个月前

开源赛道太挤了！月之暗面开源新版Muon优化器

月之暗面近期开源了改进版优化器Muon，其计算效率较AdamW提升2倍，并在相同训练预算下显著提升模型性能。通过引入权重衰减和一致的RMS更新技术，Muon成功解决...

AIGC动态

7个月前

DeepSeek流量超Gemini登顶全球第二！马斯克挟xAI更强模型宣战

DeepSeek作为新兴AI聊天机器人，在推出两个月后迅速崛起，以614%的流量增长率超越谷歌Gemini，成为全球访问量第二的AI应用。SimilarWeb数据显示其日访问量峰...

AIGC动态

7个月前

DeepSeek R1来了，追平o1！它现在不但比OpenAI开放，也比它有活力

DeepSeek R1系列模型的发布标志着一项技术突破，该系列包括三个模型：DeepSeek-R1-Zero、DeepSeek-R1和小型密集模型。DeepSeek-R1-Zero通过仅使用强化学习（R...

AIGC动态

8个月前

OpenAI正式发布o3 – 通往AGI的路上，已经没有了任何阻碍。

OpenAI在12天的直播中发布了其最新的人工智能模型OpenAI o3，标志着该公司在人工智能领域的又一重大进步。o3在多个评测集上展现出卓越的性能，包括软件工程考...

AI-Agent

9个月前

OpenAI深夜炸场！一口气放出o1模型全家桶，月费200美元的ChatGPT Pro被狂槽：Altman只想躺在印钞机上数钱

OpenAI最近宣布了两项重大更新，首先是o1模型的完整版本上线ChatGPT，并即将推出API。这个新模型在数学、科学和编码等ML基准测试中表现更优，错误率减少了34%...

AIGC动态

9个月前

标签：模型性能

32B 模型横扫 SWE 任务，这款代码智能体模型有点东西

斯坦福2025 AI Index报告来了：DeepSeek在全文中被提到45次

Llama 4在测试集上训练？内部员工、官方下场澄清，LeCun转发

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

谷歌提出Titans：突破算力限制，扩展上下文

开源赛道太挤了！月之暗面开源新版Muon优化器

DeepSeek流量超Gemini登顶全球第二！马斯克挟xAI更强模型宣战

DeepSeek R1来了，追平o1！它现在不但比OpenAI开放，也比它有活力

OpenAI正式发布o3 – 通往AGI的路上，已经没有了任何阻碍。

OpenAI深夜炸场！一口气放出o1模型全家桶，月费200美元的ChatGPT Pro被狂槽：Altman只想躺在印钞机上数钱

热门网址

标签：模型性能

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址