标签:性能评估
英伟达新研究:上下文长度虚标严重,32K性能合格的都不多
研究人员近日针对大型语言模型处理长文本的能力进行了深入探讨,并提出了名为RULER的新基准测试。该测试包含四大类共13项任务,旨在评估模型的“有效上下文”长...
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
近期研究表明,通过训练纯解码器生成模型,可以成功地生成包括音频、图像和状态-动作序列在内的多种模态的新序列。这些模型通常采用词汇扩展方法实现多模态表...
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
为使大型语言模型(LLM)与人类价值观和意图保持一致,学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。SimPO的核心优势在于其奖...
Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V
在多模态人工智能领域,GPT-4o 的问世开创了一个新纪元,被称为首个“原生”多模态模型,因其能无缝融合文本、视觉和音频。区别于传统多模态模型采用的特定模态...
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
Stability AI最近推出了Stable LM 2 12B模型,这是其新模型系列的一个重要升级。该模型基于七种语言的2万亿Token进行训练,拥有120亿参数,性能在某些基准测...
弱智吧:大模型变聪明,有我一份贡献
机器之心报道了一项关于中文大型语言模型(LLM)的研究,该研究通过利用百度贴吧中的“弱智吧”内容作为数据集,对人工智能模型进行训练和评估。弱智吧以其高质...
Stability AI开源3B代码生成模型:可补全,还能Debug
本文报道了Stability AI 公司开源的小体量预训练模型 Stable Code Instruct 3B,该模型是一个基于 Stable Code 3B 的指令调整编码语言模型,能够处理各种任务...
复刻Sora的通用视频生成能力,开源多智能体框架Mora来了
何恺明的目标是探索面向复杂世界的智能。Sora是首个引起广泛关注的大规模通用视频生成模型,自OpenAI于2024年2月推出以来,没有其他视频生成模型能在性能或支...
英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?
本文主要探讨了人工智能公司Groq的AI芯片的实力与潜力,以及其对英伟达的挑战。Groq的AI芯片在处理大型模型token生成上表现出色,其生成速度远超其他使用GPU...
大模型增速远超摩尔定律!MIT最新研究:人类快要喂不饱AI了
近日,MIT的研究人员发表了一项关于大模型能力增速的研究,指出LLM的能力每8个月翻一倍,远超过摩尔定律。这意味着硬件可能无法跟上大模型的需求,引发了人们...