标签:多模态
超越GPT-4V,苹果多模态大模型上新!
苹果发布了最新的多模态大语言模型(MLLM)Ferret-UI,该模型在理解和与屏幕信息交互方面表现出卓越性能,超越了GPT-4V。Ferret-UI专为理解移动UI屏幕而设计...
苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V
随着大模型的兴起,科技巨头和创业公司都在新一轮的技术竞赛中寻求优势。苹果公司,尽管长期处于行业领先地位,却在大模型领域显得稍有落后。然而,苹果最近...
香港大模型公司Weitu AI首秀,打造多模态Native的技术和产品
香港的Weitu AI公司近期推出了一款具有150亿参数的多模态大模型WeituAI 1.0,该模型在多个国际权威评测榜单上取得了显著成绩,不仅超越了同量级的模型,甚至...
专访优必选庞建新:在大模型时代推动机器人智能化|GAIR live
未来几年,AI+人形机器人领域将迎来颠覆性的技术变革。庞建新,优必选副总裁、研究院副院长,正领导团队将大模型技术应用于人形机器人的多模态感知和决策规划...
a16z 对话 Poe 创始人:大模型幻觉是创业公司的机会;AI 的未来是多模型、多模态
Adam D'Angelo,Meta的前CTO和Quora的CEO,目前还是OpenAI的董事会成员。他最近推出了Poe,这是一个集成了多个大型语言模型(LLMs)的聊天机器人平台,包括GP...
上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升
上海交通大学与上海AI实验室合作提出了一种新的框架——Long-CLIP,旨在解决CLIP模型在处理长文本时的不足。CLIP模型通过对齐视觉和文本模态,具备强大的zero-s...
关于 RAG、AI Agent、多模态,我们的理解与探索
在QCon上海站上,王元讲师分享了关于构建企业级智能问答机器人的实战经验,探讨了私有数据接入、代理框架运用、多模态实践和语义缓存技术等LLM新技术与实践。...
阶跃星辰:大模型「new game」里的新玩家
在2024年3月23日的全球开发者先锋大会上,初创公司阶跃星辰发布了Step系列通用大模型,包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型和Step-2...
通用文档理解新SOTA,多模态大模型TextMonkey来了
华中科技大学和金山的研究人员在多模态大模型Monkey的基础上提出了TextMonkey,这是一个专注于文本相关任务的多模态大模型。TextMonkey在多个场景文本和文档...
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
剑桥大学信息工程系人工智能实验室最近开源了首个预训练、通用多模态后期交互知识检索器PreFLMR。该模型基于Fine-grained Late-interaction Multi-modal Retr...