标签:模型性能
拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开
在最新的技术突破中,商汤科技的自研通用Embedding模型Piccolo2已在中文语义向量评测基准C-MTEB中名列第一,成为当前最大规模、最为全面的中文语义向量表征能...
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
在深度学习领域,矩阵乘法(MatMul)一直占据着核心地位,尤其是在语言模型中。然而,这一操作在计算开销和内存访问方面占据了很大比例。近期,来自加州大学...
击穿全网底价,通义千问GPT-4级大模型直降97%!1块钱能买200万tokens
阿里巴巴旗下通义千问系列模型近日宣布大幅降价,涉及9款模型,包括商业化和开源模型。此次价格调整中,性能对标GPT-4的主力模型Qwen-Long,其API输入价格从0...
苹果在小模型上还是非常领先的
AI领域中,小模型技术越来越受欢迎,因为这些模型可以在个人设备上运行,无需依赖云端大型数据中心。苹果最近推出了OpenELM项目,包括一系列小型AI语言模型,...
革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
新智元报道了Meta、南加州大学(USC)、CMU和UCSD联合提出的革命性新架构Megalodon,旨在处理无限上下文,并在2万亿token训练任务中超越了Llama2-7B,展现出...
大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B
Stability AI近期发布了新的代码模型Stable Code Instruct 3B,尽管公司内部发生了一些变动,如首席执行官辞职,部分作者离职,投资公司出现故障,但这并未影...
Scaling 能通往 AGI 吗?万字科普 Scaling Law 的业内争议与讨论
本文探讨了关于大型语言模型(LLM)的scaling law的争议,即通过增加模型规模和数据量来提升AI性能的理论。文章基于Dwarkesh Patel的观点,分析了scaling law...
1
2