模型性能 | 第 2 页

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

在人工智能领域，Scaling Law是一个关键概念，它描述了深度学习模型的泛化误差和模型大小随着训练集规模的增长而呈现出可预测的幂律关系。这一概念最早被百度...

AIGC动态

8个月前

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

微软AI和清华大学的研究人员联合提出了一种新型架构——差分Transformer（DIFF Transformer），旨在提升大型语言模型的性能。该架构通过改进模型处理上下文的方...

AIGC动态

8个月前

字节跳动、中科院开源多模态数据集—WebMath-40B

字节跳动和中国科学院的研究人员联合发布了超大多模态数据集InfiMM-WebMath-40B，旨在推动多模态大模型的发展。该数据集从Common-Crawl中筛选提炼而成，包含2...

AIGC动态

8个月前

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL，这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...

AIGC动态

9个月前

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

微软研究院和清华大学的研究团队提出了一种新型的Transformer架构——Differential Transformer（简称Diff Transformer），旨在解决传统Transformer在处理大型...

AIGC动态

9个月前

Claude 3.5核心编码prompt揭秘，全网码农沸腾！四步调教法，最新V2版放出

Reddit社区中，一个名为ssmith12345uk的用户分享了一套针对Claude 3.5编码系统的提示词，这套提示词融合了Anthropic元提示的一些思路，解决了之前遇到的一些...

AIGC动态

1年前 (2024)

IBM推出创新框架用“黑盒”方式，评估大模型的输出

在AIGC领域，大语言模型（LLM）的准确性、安全性和可解释性比性能和评测排名更为关键。IBM研究人员开发了一种黑盒框架，无需访问内部结构、参数或训练数据，...

AIGC动态

1年前 (2024)

240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开

随着人工智能技术的快速发展，数据规模对模型性能的影响日益显著。Llama 3的研究揭示了在不改变模型架构的前提下，数据量从2万亿增加到15万亿可以显著提升模...

AIGC动态

1年前 (2024)

拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开

在最新的技术突破中，商汤科技的自研通用Embedding模型Piccolo2已在中文语义向量评测基准C-MTEB中名列第一，成为当前最大规模、最为全面的中文语义向量表征能...

AIGC动态

1年前 (2024)

从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗

在深度学习领域，矩阵乘法（MatMul）一直占据着核心地位，尤其是在语言模型中。然而，这一操作在计算开销和内存访问方面占据了很大比例。近期，来自加州大学...

AIGC动态

1年前 (2024)

标签：模型性能

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

字节跳动、中科院开源多模态数据集—WebMath-40B

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

Claude 3.5核心编码prompt揭秘，全网码农沸腾！四步调教法，最新V2版放出

IBM推出创新框架用“黑盒”方式，评估大模型的输出

240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开

拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开

从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗

热门网址

标签：模型性能

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址