标签:开源技术
视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式
智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够在无需扩散模型或组合方法的情况下,完成文本、图像、视...
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
智源研究院发布了原生多模态世界模型Emu3,该模型基于下一个token预测,无需依赖扩散模型或组合方法,能够完成文本、图像、视频三种模态数据的理解和生成。Em...
阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!
阿里巴巴集团开源了其最新研发的视觉多模态模型Qwen2-VL,这一模型在多项性能指标上超越了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为...
杀疯了!Meta开源SAM-2:可商用,随意分割视频、图像
Meta公司在2023年4月5日首次开源了视觉分割模型SAM,该模型能够通过交互和自动化的方式对视频和图像中的元素进行分割,被誉为计算机视觉领域的重大突破。SAM...
开源模型是中美缩小AI技术差距的关键因素之一?|钛媒体AGI
美国《纽约时报》近日发表文章,指出中国正在加速缩小与美国在人工智能(AI)技术方面的差距,主要原因是中国公司在开源AI模型技术方面的快速发展。文章提到...
不玩“期货”的快手接棒Stability AI,国产之光可图大模型Kolors领跑开源生态
快手公司开发的文生图大模型——可图(Kolors)近日宣布开源,迅速在社交媒体上引起广泛关注。该模型不仅能够绘制万物,还能书写汉字,展现了对中国文化的深刻...
中国芯应该走“C”路线,RISC-V架构+中国贡献是关键?
2024年6月24日至28日,RISC-V欧洲峰会在德国慕尼黑盛大举行,吸引了来自40个国家的700余名与会者,包括工业界、政府、研究和学术界的代表。峰会聚焦于人工智...
英伟达开源合成数据大模型:奖励模型,超过GPT-4 Turbo
全球人工智能领导者英伟达(Nvidia)于6月15日在其官网开源了一款名为Nemotron-4 340B的大模型,专为生成合成数据而设计。该模型能够快速生成医疗、金融、制...
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
UC Berkeley的研究人员最近开源了首个“世界模型”(LargeWorldModel,简称LWM),这是一个在多模态任务上表现出色的模型,特别是在长视频理解方面,其性能甚至...
详解Latte:去年底上线的全球首个开源文生视频DiT
上海人工智能实验室的研究团队在视频生成领域取得了重要突破,他们成功开发了名为Latte的视频DiT模型。这是全球首个开源的文生视频DiT,受到了广泛的关注和使...