标签:模型性能

字节跳动、中科院开源多模态数据集—WebMath-40B

字节跳动和中国科学院的研究人员联合发布了超大多模态数据集InfiMM-WebMath-40B,旨在推动多模态大模型的发展。该数据集从Common-Crawl中筛选提炼而成,包含2...

一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL,这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...

这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机

微软研究院和清华大学的研究团队提出了一种新型的Transformer架构——Differential Transformer(简称Diff Transformer),旨在解决传统Transformer在处理大型...

Claude 3.5核心编码prompt揭秘,全网码农沸腾!四步调教法,最新V2版放出

Reddit社区中,一个名为ssmith12345uk的用户分享了一套针对Claude 3.5编码系统的提示词,这套提示词融合了Anthropic元提示的一些思路,解决了之前遇到的一些...

IBM推出创新框架用“黑盒”方式,评估大模型的输出

在AIGC领域,大语言模型(LLM)的准确性、安全性和可解释性比性能和评测排名更为关键。IBM研究人员开发了一种黑盒框架,无需访问内部结构、参数或训练数据,...

240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

随着人工智能技术的快速发展,数据规模对模型性能的影响日益显著。Llama 3的研究揭示了在不改变模型架构的前提下,数据量从2万亿增加到15万亿可以显著提升模...

拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开

在最新的技术突破中,商汤科技的自研通用Embedding模型Piccolo2已在中文语义向量评测基准C-MTEB中名列第一,成为当前最大规模、最为全面的中文语义向量表征能...

从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗

在深度学习领域,矩阵乘法(MatMul)一直占据着核心地位,尤其是在语言模型中。然而,这一操作在计算开销和内存访问方面占据了很大比例。近期,来自加州大学...

击穿全网底价,通义千问GPT-4级大模型直降97%!1块钱能买200万tokens

阿里巴巴旗下通义千问系列模型近日宣布大幅降价,涉及9款模型,包括商业化和开源模型。此次价格调整中,性能对标GPT-4的主力模型Qwen-Long,其API输入价格从0...

苹果在小模型上还是非常领先的

AI领域中,小模型技术越来越受欢迎,因为这些模型可以在个人设备上运行,无需依赖云端大型数据中心。苹果最近推出了OpenELM项目,包括一系列小型AI语言模型,...
1 2