赶超Gemini Pro，提升推理、OCR能力的LLaVA-1.6太强了

AIGC动态2年前 (2024)更新 almosthuman2014

2,798 0 0

作者信息

【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微信号】 almosthuman2014

文章摘要

摘要：
去年，威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学合作发布了LLaVA（Large Language and Vision Assistant），并在10月推出了LLaVA-1.5，最近又推出了LLaVA-1.6。LLaVA-1.6在推理、OCR和世界知识方面有了显著改进，甚至超越了Gemini Pro。该版本的改进包括提升输入图像分辨率、改进视觉指令调整数据混合、增强视觉对话和世界知识掌握，以及使用SGLang进行高效部署和推理。LLaVA-1.6保持了极简设计和数据效率，使用不到1M的视觉指令调优样本，训练成本仅为其他方法的百分之一至千分之一。与其他开源LMM和商用产品相比，LLaVA-1.6实现了SOTA性能，尤其在零样本中文能力方面表现出色。

方法改进：
LLaVA-1.6在设计上注重动态高分辨率，提高了模型对图像细节的感知能力。通过数据混合，特别是高质量的用户指令数据，研究团队确保了任务指令的多样性和响应的优先级。他们使用现有的GPT-V数据和自己收集的小型视觉指令调优数据集，同时删除了TextCap并添加了DocVQA、SynDog-EN、ChartQA等数据，以提高模型的OCR能力和对图表的理解。团队还考虑采用更多LLM方案，以支持更广泛的用户和场景。

通过这些改进，LLaVA-1.6在多项基准测试中取得了令人瞩目的成绩，展现出了强大的多模态能力和优越的性能表现。