标签:模型性能
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决当前大模型通用知识推理评估体系的局限性。该基准覆盖285个研究生级学科,包含...
谷歌提出Titans:突破算力限制,扩展上下文
谷歌研究院推出的Titans框架通过创新架构设计突破了大语言模型的长上下文处理瓶颈,将模型上下文窗口扩展至200万token,同时仅增加1.8倍算力消耗。该框架在语...
开源赛道太挤了!月之暗面开源新版Muon优化器
月之暗面近期开源了改进版优化器Muon,其计算效率较AdamW提升2倍,并在相同训练预算下显著提升模型性能。通过引入权重衰减和一致的RMS更新技术,Muon成功解决...
DeepSeek流量超Gemini登顶全球第二!马斯克挟xAI更强模型宣战
DeepSeek作为新兴AI聊天机器人,在推出两个月后迅速崛起,以614%的流量增长率超越谷歌Gemini,成为全球访问量第二的AI应用。SimilarWeb数据显示其日访问量峰...
DeepSeek R1来了,追平o1!它现在不但比OpenAI开放,也比它有活力
DeepSeek R1系列模型的发布标志着一项技术突破,该系列包括三个模型:DeepSeek-R1-Zero、DeepSeek-R1和小型密集模型。DeepSeek-R1-Zero通过仅使用强化学习(R...
OpenAI正式发布o3 – 通往AGI的路上,已经没有了任何阻碍。
OpenAI在12天的直播中发布了其最新的人工智能模型OpenAI o3,标志着该公司在人工智能领域的又一重大进步。o3在多个评测集上展现出卓越的性能,包括软件工程考...
OpenAI深夜炸场!一口气放出o1模型全家桶,月费200美元的ChatGPT Pro被狂槽:Altman只想躺在印钞机上数钱
OpenAI最近宣布了两项重大更新,首先是o1模型的完整版本上线ChatGPT,并即将推出API。这个新模型在数学、科学和编码等ML基准测试中表现更优,错误率减少了34%...
遗憾不?原来百度2017年就研究过Scaling Law,连Anthropic CEO灵感都来自百度
在人工智能领域,Scaling Law是一个关键概念,它描述了深度学习模型的泛化误差和模型大小随着训练集规模的增长而呈现出可预测的幂律关系。这一概念最早被百度...
微软和清华大学为 LLM 提出了 DIFF Transformer 架构
微软AI和清华大学的研究人员联合提出了一种新型架构——差分Transformer(DIFF Transformer),旨在提升大型语言模型的性能。该架构通过改进模型处理上下文的方...
字节跳动、中科院开源多模态数据集—WebMath-40B
字节跳动和中国科学院的研究人员联合发布了超大多模态数据集InfiMM-WebMath-40B,旨在推动多模态大模型的发展。该数据集从Common-Crawl中筛选提炼而成,包含2...