“图像编码”的搜索结果

号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law
Ai2公司推出了一款名为Molmo的多模态人工智能模型,该模型在功能上类似于钢铁侠的智能助手“贾维斯”。Molmo能够通过一张照片识别自行车的...
杀疯了!Meta开源SAM-2:可商用,随意分割视频、图像
Meta公司在2023年4月5日首次开源了视觉分割模型SAM,该模型能够通过交互和自动化的方式对视频和图像中的元素进行分割,被誉为计算机视觉...
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
DynRefer是一种新型的区域级多模态理解模型,由中国科学院大学LAMP实验室的研究人员开发,旨在通过模拟人类视觉认知过程,提高区域级多...
能精准解读X光片,开源视觉大模型Dragonfly
Together.ai最近开源了名为Dragonfly的大语言模型,该模型具有多分辨率视觉编码功能。Dragonfly设计了两个版本:Llama-3-8b-Dragonfly-v...
谷歌创新框架:从非结构化数据,实现多模态学习
在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络...
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
多模态大模型(MLLM)在视觉任务中展现出强大的认知理解能力,但目前大多数模型局限于单向的图像理解,难以在图像上进行精确定位。这一...
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座
在人工智能领域,一款仅用8B参数的端侧多模态模型引发了广泛关注。这款名为MiniCPM-Llama3-V 2.5的模型,以其卓越的性能击败了多模态巨...
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
Chameleon模型挑战了OpenAI的GPT-4o,成为首个敢于与之一较高下的新模型。Chameleon采用统一的Transformer架构,能够在单一神经网络中无...
端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?
随着人工智能技术的不断进步,我们见证了许多创新的AI模型的诞生。最近,Nexa AI团队推出了一款名为OctopusV3的端侧模型,这款模型被设...
梗图理解“天花板”!港中文终身教授贾佳亚团队推出多模态模型:GPT-4+DALL-E 3,王炸组合刷爆榜单
近日,港中文终身教授贾佳亚团队推出了一款名为 Mini-Gemini 的多模态模型,包括 2B 小杯到 34B 的超大杯,一经发布便登上了 PaperWithC...
1 2 3