标签:图像理解
Deepseek又出连招:刚发布了超越DALL-E3的多模态模型
春节之际,AI公司DeepSeek(深度求索)以其创新的AI模型在全球科技圈引起震动。1月20日,DeepSeek发布了推理模型DeepSeek-R1正式版,该模型以低成本训练出的...
突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业|钛媒体AGI
DeepSeek在人工智能领域取得了重大突破,发布了开源多模态人工智能模型Janus-Pro,该模型包含10亿和70亿参数规模的版本。Janus-Pro-7B在GenEval和DPG-Bench基...
2024即将结束,中国AI应用支棱起来了吗?这家公司交出95分答卷
智象未来(HiDream.ai)是一家专注于视频和图像生成模型的公司,其核心团队自几年前就开始研究相关技术。公司最近推出了智象多模态生成大模型3.0版本和理解大...
发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型
Mistral AI近期推出了其多模态家族的新成员Pixtral Large,这是一个基于124B开放权重构建的超大杯基础模型,具备顶尖的图像理解能力,能够理解文档、图表和自...
o1图像理解神秘现身,网友疯狂测试!Altman自曝:o2研究生级水平破105%
近期,网络上出现了关于o1图像理解功能的广泛讨论和测试。用户发现,通过选择ChatGPT 4o mini模型并上传图片,o1能够进行图像理解。这一功能原本是OpenAI未来...
o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App
在OpenAI伦敦开发者日上,o1模型展示了其五大核心能力:函数调用、开发者message、流式传输、结构化输出和图像理解。o1 mini与Cursor的联动在不到2分钟内搭建...
古早费曼论文手写公式也能转LaTeX,还能看懂梗图,马斯克Grok新功能上线就火了
xAI公司开发的Grok大模型在最新更新后获得了图像理解能力,这标志着科学文献数字化和标准化工作的重大进展。Grok能够将手写公式转换成LaTeX格式,准确率极高...
阿里国际发布最新版多模态大模型Ovis,拿下开源第一
阿里国际AI团队最近发布了一款名为Ovis的多模态大模型,该模型在图像理解任务上取得了显著进展,多项子类任务达到了SOTA(最新技术)水平。多模态大模型相较...
一手实测结果出炉!智谱「超大杯」模型全家桶亮相KDD,部分任务超越GPT-4o
在KDD 2024大会上,中国的大模型技术取得了显著进展。智谱AI的顾晓韬博士介绍了支持中英双语的对话机器人ChatGLM,以及智谱基础模型的重大升级——GLM-4-Plus。...
GPT-4系列模型,在文档理解中的多维度评测
Snowflake的研究人员对OpenAI的GPT-4系列模型进行了深入研究,评估了其在文本生成、图像理解、文档摘要等方面的能力。通过在DocVQA、InfographicsVQA、SlideV...
1
2