模型评估 | 学习AIGC

训练数据量降低1万倍，谷歌提出超高质量数据主动学习方法

大模型应用于特定领域需数据微调，但为复杂任务微调大模型时，筛选高保真训练数据难度大、成本高。为此，谷歌提出新的可扩展主动学习筛选流程。该流程从初始...

AIGC动态

3周前

现在全世界最好的开源模型，是 Kimi、DeepSeek 和 Qwen

Kimi K2 作为中国开源模型的最新代表，在全球范围内引发了广泛关注和讨论。Anthropic 的联合创始人 Jack Clark 公开称赞 K2 为“伟大的模型”，并将其视为中国...

AI-Agent

2个月前

质疑DeepSeek-R1、Claude Thinking根本不会推理！苹果争议论文翻车了？

当前人工智能领域普遍认为以DeepSeek-R1、Claude 3.7 Sonnet为代表的推理大模型已具备类人思考能力，但苹果团队的最新研究对此提出根本性质疑。通过设计可控...

AIGC动态

3个月前

OpenAI很看好！首个SWE-1模型发布，软件开发或将提速99%

Windsurf发布了其首个前沿模型SWE-1，旨在将软件开发效率提升99%。SWE-1不仅仅是一个能够编写代码的模型，更是一个能够理解并协助整个软件工程流程的协作伙伴...

AIGC动态

4个月前

OpenAI科学家姚顺雨：o3发布、RL迎来新范式，AI正式进入下半场

AI发展的“下半场”标志着从模型训练到问题定义和评估的转变。过去几十年，AI的核心在于开发新的训练方法和模型，这一路径取得了显著成果，如AlphaGo和GPT-4等...

AIGC动态

5个月前

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

「推理」已成为语言模型的下一个主要前沿领域，学术界和工业界在探索模型推理性能提升的过程中，提出了一个核心问题：什么方法有效，什么方法无效？近期研究...

AIGC动态

5个月前

DeepSeek-R1自写CUDA内核跑分屠榜！斯坦福学霸狂飙GPU编程自动化挑战人类

斯坦福和普林斯顿研究团队开发的KernelBench框架揭示了大型语言模型在生成优化CUDA内核方面的潜力与局限。DeepSeek-R1在自动生成GPU内核任务中超越OpenAI o1...

AIGC动态

7个月前

大模型都喜欢拍马屁，Gemini最能拍！斯坦福：这不安全、不可靠

斯坦福大学研究人员针对大语言模型在交互中表现出的谄媚倾向展开系统性研究，揭示了该行为对关键应用领域的潜在风险。通过AMPS数学计算和MedQuad医疗建议数据...

AIGC动态

7个月前

第一个被人类骗钱的AI傻了，近5万美元不翼而飞！Scaling Law还能带我们到AGI吗？

全球首个AI智能体Freysa被人类骗走近5万美元的事件引起了广泛关注。Freysa被设计为在任何情况下都不能转账或批准资金转移，但通过精心设计的prompt工程，一名...

AIGC动态

10个月前

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

新智元报道了多模态大型语言模型（MLLMs）在多学科多模态理解和推理（MMMU）基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提升，但对其是否真正理...

AIGC动态

1年前 (2024)

标签：模型评估

训练数据量降低1万倍，谷歌提出超高质量数据主动学习方法

现在全世界最好的开源模型，是 Kimi、DeepSeek 和 Qwen

质疑DeepSeek-R1、Claude Thinking根本不会推理！苹果争议论文翻车了？

OpenAI很看好！首个SWE-1模型发布，软件开发或将提速99%

OpenAI科学家姚顺雨：o3发布、RL迎来新范式，AI正式进入下半场

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

DeepSeek-R1自写CUDA内核跑分屠榜！斯坦福学霸狂飙GPU编程自动化挑战人类

大模型都喜欢拍马屁，Gemini最能拍！斯坦福：这不安全、不可靠

第一个被人类骗钱的AI傻了，近5万美元不翼而飞！Scaling Law还能带我们到AGI吗？

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

热门网址

标签：模型评估

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址