标签:性能评估

梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...

AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

Scale AI、Center for AI Safety与MIT研究者联合推出的ENIGMAEVAL基准,通过1184道源自解谜寻宝竞赛的复杂题目,系统评估大语言模型的多模态推理能力。该基准...

DeepSeek官方推荐:R1要这样设置

DeepSeek官方针对其R1模型的最佳部署方案提出了四项核心建议。首要原则是避免使用系统提示词,所有指令应直接整合至用户提示词中,这与该模型的训练方式直接...

直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

斯坦福大学、加州大学伯克利分校等机构联合发布了开源推理模型OpenThinker-32B,其性能接近当前最先进的DeepSeek-R1-32B模型。该模型仅使用114k训练数据(相...

英特尔开源RAG Foundry 框架,可增强多种RAG用例

英特尔实验室研究人员开源了RAG Foundry,这是一个专为大模型RAG框架开发和增强的工具,具有高度灵活性和扩展性。RAG Foundry支持多种RAG用例,包括数据选择...

北航&ZGCLAB 提出首个检索增强生成基准测试工具库 XRAG

ZGCLAB与北航联合提出了XRAG,这是一个全面评测和优化增强生成RAG(Retrieval-Augmented Generation)的框架,包含50多个测试指标。XRAG支持4类高级RAG模块的...

IBM推出化学大模型:可精准预测分子性质和行为

在化学领域,IBM研究人员开发了一款名为SMI-TED的大模型,专为化学领域设计,拥有2.89亿参数。该模型在PubChem数据库上的9100万个分子数据集上进行预训练,相...

仅4个多月RAG就进化到“一个新时代”了:成本降低到GraphRAG的0.1%

微软最近推出了LazyGraphRAG,这是一种新型的RAG(检索增强生成)系统,旨在以高效且低成本的方式实现图形RAG功能。LazyGraphRAG结合了VectorRAG和GraphRAG的...

「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述

Ai2联合华盛顿大学及Meta、CMU、斯坦福等机构发布了OpenScholar系统,这是一个检索增强型语言模型,旨在辅助科学家进行文献搜索和综述工作。该系统结合了一个...

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控:GUI智能体的黎明

新加坡国立大学的研究团队对AI系统Claude进行了全面测试,发现其在20多个场景下展现出强大的电脑操控能力。在游戏领域,Claude能够自动完成《崩坏:星穹铁道...
1 2 3