“基准测试”的搜索结果

DeepSeek开源数学大模型,高中、大学定理证明新SOTA
数学家陶哲轩在牛津数学公开讲座中提出,人工智能(AI)与数学的结合将推动形式化证明的编写超越人类,这不仅将验证现有证明,还将创造...
英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
Meta公司推出的Llama 3.1系列模型,包括一个405B的超大型模型和两个较小的模型,虽然性能卓越,但对计算资源的需求巨大。为解决这一问题...
10人明星团队炼出首个微调Llama 3.1 405B!角色扮演一秒入戏,代码全开源
开源模型Llama 3.1的405B版本经过Nous Research的微调后,发布了名为Hermes 3的微调版本。Nous Research是一个小型但技术实力强大的初创...
怎么构建Agent?我写了一个教程(含代码)
本文探讨了利用多个AI Agent(智能体)协同工作以提高效率和成果质量的系统构建方法。文章首先强调了团队合作的重要性,认为通过分工合...
LG开源韩语大模型Exaone 3.0,8万亿token训练数据
LG的AI研究机构推出了一款名为EXAONE 3.0的新型大模型,这是一款具有78亿参数的指令微调模型,经过8万亿token的高质量数据训练,支持韩...
再见,Devin!基于GPT-4o,最强「AI工程师」Genie诞生
新智元报道了AI编码领域的最新进展,其中初创公司Cosine开发的AI工程师Genie超越了Devin,成为地表最强的AI软件工程师。Genie不是一个简...
非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1
阿布扎比技术创新研究所(TII)发布了一款名为Falcon Mamba 7B的新型开源Mamba架构模型,该模型自2023年12月首次推出以来,已成为Transf...
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
Sora的发布标志着AI视频生成领域的新发展,近期涌现的AI视频生成模型在质量上取得了显著进步,与以往容易被识别的AI生成视频相比,新一...
超9000颗星,优于GPT-4V!国内开源多模态大模型
国内开源社区OpenBMB推出了一款新型的多模态大模型——MiniCPM-V 2.6,该模型拥有80亿参数,在图像和视频理解方面表现出色,超越了包括GPT...
新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性
机器之心报道了PyTorch团队为解决注意力机制实现中的超立方体问题而引入的FlexAttention。注意力机制在机器学习中至关重要,但现有的实...
1 2 3 4 5 6 22