标签:Transformer

Transformer七子重聚GTC,老黄亲自赠送签名版DGX-1!7年奠基之作背后佚事揭秘

在GTC大会上,老黄与Transformer的七位作者进行了一场深度访谈。他们认为现在急需一个能够替代Transformer的架构出现。Transformer的八位作者中,只有Niki Pa...

仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM

新智元报道了Google Research的研究人员提出了一个时序预测基础模型TimesFM,该模型针对时序数据设计,输出序列长于输入序列。TimesFM在1000亿时间点数据上进...

深入理解Sora技术原理|得物技术

视频生成时,获取随机噪声视频,通过训练的视频压缩网络,将噪声视频压缩成低维度的潜在空间数据,以便更好的处理视频数据。将压缩后的潜在空间数据分解成空...

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

该文章介绍了一项名为Masked Diffusion Transformer V2的新技术,该技术在ImageNet基准测试中取得了1.58的FID分数,刷新了最新的SOTA。这项技术通过引入mask ...

清华系多模态大模型公司刚刚融了数亿元!放话“今年达到Sora效果”

生数科技是一家清华系多模态大模型公司,最近完成了一轮数亿元的融资,由多家投资方领投。他们的研究成果包括文生图、文生3D模型、文生视频等领域。公司提出...

OpenAI开源了:Transformer自动debug工具上线GitHub

OpenAI最近开放了用于分析Transformer内部结构的工具Transformer Debugger(TDB),该工具结合了自动可解释性技术和稀疏自动编码器,可以帮助人们快速探索模...

DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升

华为诺亚方舟实验室的研究者们提出了一种名为DenseSSM的新方法,用于改进状态空间模型(SSM)中的隐藏信息流动。DenseSSM通过在不同层之间有选择性地整合浅层...

开源、可商用,仅需0.5秒图片直接生成3D模型!

文章主要介绍了开源大模型平台Stability.ai与Tripo AI联合开发的TripoSR项目。TripoSR是一个能将图片快速转换为高质量3D模型的工具,它支持商业化和学术研究...

DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压

摘要:谷歌DeepMind推出了两种新的RNN架构——Hawk和Griffin,它们在d基准测试中超越了Transformer。Griffin模型在训练数据减少一半的情况下,全面优于Mamba,...

首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2

SnapChat背后的公司Snap联合特伦托大学等机构发布了一款名为Snap Video的文本生成视频模型。该模型采用了可扩展的时空Transformer架构,旨在提高视频生成的质...
1 4 5 6 7