文章摘要
【关 键 词】 大语言模型、视觉编码、医学图像、开源发布、模型融合
Together.ai最近开源了名为Dragonfly的大语言模型,该模型具有多分辨率视觉编码功能。
Dragonfly设计了两个版本:Llama-3-8b-Dragonfly-v1和Llama-3-8b-Dragonfly-Med-v1。
通用版本在550万张图像上进行了预训练,而医学版本则额外在140万张生物医学图像上进行微调,特别适用于解读如X光、磁共振和超声成像等医学图像。
Dragonfly-Med版本展示了其出色的医学图像理解能力,例如,它能根据胸部X光图像生成详尽的放射学记录,其结果与专业医生提供的解读相似。
该模型的多分辨率视觉编码技术能够捕获从全局到局部的多尺度信息,不仅理解图像的整体结构,还能关注到关键细节。
在Dragonfly的架构中,图像编码器至关重要,负责将输入图像转换成视觉标记,这些标记随后被映射到语言模型的潜在空间,实现视觉与语言信息的融合。
模型通过局部放大图像块选择技术,在高分辨率图像中选择最相关的部分进行聚焦,从而忽略非关键信息,提高效率和性能。
具体而言,模型接收高分辨率图像,调整其分辨率,并分割成多个子图像。
通过计算相似度,模型在高分辨率子图像中寻找与中分辨率子图像最相似的部分,确保关注图像的关键特征。
这种方法显著减少了处理的数据量,避免了冗余信息,增强了模型的泛化能力和抗过拟合能力。
根据评估数据,Dragonfly在视觉推理和解读能力方面超越了当前的一些知名模型,尤其在图像区域的细粒度理解方面表现突出。
开源地址提供了Dragonfly-Med和通用版本的访问途径,允许开发者进一步探索和应用这一先进技术。
原文和模型
【原文链接】 阅读原文 [ 1347字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★★☆☆