多模态理解 | 学习AIGC

AI 教育赛道万字解析：代表性产品有哪些？机会在哪里？未来可能性？

教育行业正经历由大型语言模型（LLM）和人工智能（AI）技术引领的变革。AI Tutor的概念虽然尚未完全实现，但随着技术的进步，教育领域的应用场景不断扩展，特...

AI-Agent

1年前 (2024)

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

新智元报道了多模态大型语言模型（MLLMs）在多学科多模态理解和推理（MMMU）基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提升，但对其是否真正理...

AIGC动态

2年前 (2024)

突发！OpenAI展示草莓，很快发布“GPT-5”猎户座！

OpenAI近期展示了其秘密项目“草莓”和“猎户座”，这两个项目均聚焦于大语言模型（LLM）的发展。草莓项目旨在解决复杂推理任务，特别是在数学和编程领域，同时增...

AIGC动态

2年前 (2024)

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

DynRefer是一种新型的区域级多模态理解模型，由中国科学院大学LAMP实验室的研究人员开发，旨在通过模拟人类视觉认知过程，提高区域级多模态任务的识别能力。...

AIGC动态

2年前 (2024)

港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

多模态大模型（MLLM）在视觉任务中展现出强大的认知理解能力，但目前大多数模型局限于单向的图像理解，难以在图像上进行精确定位。这一问题限制了模型在图像...

AIGC动态

2年前 (2024)

百川新模型冲顶中文测试基准！首款AI助手“百小应”同时发布，“最懂搜索”

百川智能发布的首款AI应用“百小应”，是一款针对消费者市场的AI助手，它不仅具备常见的长文本阅读和多模态理解能力，还特别强调了搜索和提问的功能。百小应通...

AIGC动态

2年前 (2024)

谷歌数学版Gemini破解奥赛难题，堪比人类数学家！

在谷歌I/O大会上， Gemini 1.5 Pro的发布引起了广泛关注。该模型的数学专业版本在多项基准测试中展现出了卓越性能，特别是数学能力，其成绩甚至与人类专家水...

AIGC动态

2年前 (2024)

对标GPT4o！谷歌发布Project Astra，全民AI代理时代来啦

在5月15日的谷歌“ I/O 2024”大会上，生成式AI成为焦点，谷歌DeepMind发布了一款名为Project Astra的AI代理产品。Project Astra能够实现跨文本、音频、视频的...

AIGC动态

2年前 (2024)

谷歌重磅发布Gemini 1.5 Pro：能自动写影评，理解视频！

随着人工智能技术的不断进步，AIGC（人工智能生成内容）领域正迎来新的发展高潮。谷歌最新发布的Gemini 1.5 Pro模型，标志着大型语言模型（LLM）在多模态理解...

AIGC动态

2年前 (2024)

阿里7B多模态文档理解大模型拿下新SOTA｜开源

阿里巴巴的mPLUG团队发布了最新的开源工作mPLUG-DocOwl 1.5，这是一个针对多模态文档理解的大模型，它在处理高分辨率图片文字识别、通用文档结构理解、指令遵...

AIGC动态

2年前 (2024)

标签：多模态理解

AI 教育赛道万字解析：代表性产品有哪些？机会在哪里？未来可能性？

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

突发！OpenAI展示草莓，很快发布“GPT-5”猎户座！

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

百川新模型冲顶中文测试基准！首款AI助手“百小应”同时发布，“最懂搜索”

谷歌数学版Gemini破解奥赛难题，堪比人类数学家！

对标GPT4o！谷歌发布Project Astra，全民AI代理时代来啦

谷歌重磅发布Gemini 1.5 Pro：能自动写影评，理解视频！

阿里7B多模态文档理解大模型拿下新SOTA｜开源

热门网址

标签：多模态理解

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址