标签:性能提升

DeepSeek最新论文解读:NSA,物美价廉的超长上下文方案

DeepSeek最新提出的原生稀疏注意力(NSA)机制解决了传统稀疏注意力技术在训练与推理阶段的割裂问题。传统方法通常只能在推理阶段应用稀疏注意力,导致模型能...

反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好

OpenAI的GPT-4o近期进行了版本更新,在大模型竞技场中与DeepSeek-R1并列第一,并在多个单项评测中表现突出。除数学能力排名第六外,其在创意写作、编程、指令...

LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞

DeepSeek团队提出的CODEI/O方法通过代码输入/输出预测任务,显著提升了大型语言模型在多种推理任务中的表现。该方法将原始代码文件转换为可执行函数,并构建...

全球AI算力报告出炉,LLM最爱A100!谷歌坐拥超100万H100等效算力

全球机器学习硬件领域正经历前所未有的技术革新与规模扩张。Epoch AI最新报告显示,机器学习硬件计算能力以每年43%的速度增长,每1.9年实现翻倍,这种增速不...

清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神

多机构联合研究发现,通过优化测试时计算扩展(TTS)策略,小型语言模型在复杂数学任务中展现出超越大型模型的潜力。0.5B参数的模型在MATH-500和AIME24基准测...

李飞飞团队50美元训练出DeepSeek R1?

近期,一则关于“50美元蒸馏出DeepSeek R1模型”的新闻引发了广泛关注,甚至被认为对OpenAI和英伟达造成了巨大冲击。然而,深入研究相关论文后发现,这种说法存...

冲击DeepSeek R1,谷歌发布新一代Gemini全型号刷榜,编程、物理模拟能力炸裂

谷歌本周发布了新一代的AI模型系列Gemini 2.0,包括Gemini 2.0 Flash、Gemini 2.0 Flash-Lite和旗舰模型Gemini 2.0 Pro实验版本,并在Gemini App中推出了推理...

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

近期,AI领域被DeepSeek的两个新模型DeepSeek-V3和DeepSeek-R1所吸引,这两个模型以较低的成本实现了与OpenAI同类模型相媲美的性能,引发了市场对AI硬件需求...

杭州领跑AI开源!阿里Qwen除夕开源视觉理解新旗舰,全系列3尺寸,7B模型超GPT-4o-mini

阿里巴巴集团旗下的通义Qwen发布了新的视觉理解模型Qwen2.5-VL,这是一个开源的视觉语言模型,包含3B、7B和72B三个版本。Qwen2.5-VL-72B-Instruct在多个领域...

模型参数作知识通用载体,MergeNet离真正的异构知识迁移更进一步

浙江大学和上海交通大学的研究团队提出了一种名为MergeNet的知识迁移框架,旨在解决边缘计算设备如智能物联网设备在部署深度神经网络时面临的计算资源和存储...
1 2 3 14