能精准解读X光片，开源视觉大模型Dragonfly

AIGC动态1年前 (2024)发布 AIGCOPEN

3,026 0 0

文章摘要

【关键词】 大语言模型、视觉编码、医学图像、开源发布、模型融合

Together.ai最近开源了名为Dragonfly的大语言模型，该模型具有多分辨率视觉编码功能。

Dragonfly设计了两个版本：Llama-3-8b-Dragonfly-v1和Llama-3-8b-Dragonfly-Med-v1。

通用版本在550万张图像上进行了预训练，而医学版本则额外在140万张生物医学图像上进行微调，特别适用于解读如X光、磁共振和超声成像等医学图像。

Dragonfly-Med版本展示了其出色的医学图像理解能力，例如，它能根据胸部X光图像生成详尽的放射学记录，其结果与专业医生提供的解读相似。

该模型的多分辨率视觉编码技术能够捕获从全局到局部的多尺度信息，不仅理解图像的整体结构，还能关注到关键细节。

在Dragonfly的架构中，图像编码器至关重要，负责将输入图像转换成视觉标记，这些标记随后被映射到语言模型的潜在空间，实现视觉与语言信息的融合。

模型通过局部放大图像块选择技术，在高分辨率图像中选择最相关的部分进行聚焦，从而忽略非关键信息，提高效率和性能。

具体而言，模型接收高分辨率图像，调整其分辨率，并分割成多个子图像。

通过计算相似度，模型在高分辨率子图像中寻找与中分辨率子图像最相似的部分，确保关注图像的关键特征。

这种方法显著减少了处理的数据量，避免了冗余信息，增强了模型的泛化能力和抗过拟合能力。

根据评估数据，Dragonfly在视觉推理和解读能力方面超越了当前的一些知名模型，尤其在图像区域的细粒度理解方面表现突出。

开源地址提供了Dragonfly-Med和通用版本的访问途径，允许开发者进一步探索和应用这一先进技术。

原文和模型

【原文链接】 阅读原文 [ 1347字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★★☆☆

智谱AI

智谱AI是一家国内的AI大模型...

# AIGC动态 # 图像生成 # 大模型 # 医学图像 # 大语言模型 # 开源发布 # 模型融合 # 视觉编码

文章版权归作者所有，未经允许请勿转载。

OpenAI曾转录100万小时视频数据，训练GPT-4

AIGC开放社区

2,487

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

机器之心

799

国内复现Sora并开源：成本降低46%，序列扩充近百万！

AIGC开放社区

1,751

普林斯顿DeepMind用数学证明：LLM不是随机鹦鹉！「规模越大能力越强」有理论根据

新智元

2,604

彻底戳穿AI「失忆症」！超越OpenAI全局记忆，中国队开源LLM记忆操作系统

新智元

696

250美元起售，还开源，Hugging Face 发布史上最亲民人形机器人

机器之心

819

暂无评论

暂无评论...

能精准解读X光片，开源视觉大模型Dragonfly

文章摘要

原文和模型

芯片，将发生巨变？

用Luma的图生视频功能，给地狱笑话再加点料｜AI 鲜测

相关文章

暂无评论

热门网址

热门文章

能精准解读X光片，开源视觉大模型Dragonfly

文章摘要

原文和模型

芯片，将发生巨变？

用Luma的图生视频功能，给地狱笑话再加点料｜AI 鲜测

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章