标签:AI视觉

豆包视觉理解模型正式发布:一元处理近 300 张高清图片,低于行业价格 85%

在12月18日的火山引擎Force大会上,字节跳动推出了豆包视觉理解模型,该模型在数学、物理、图表、代码等多个领域的推理能力得到加强,同时具有成本效益,输入...

斯坦福、丰田最新研究,单视频合成多视角模型GCD

在AI视觉领域,重建复杂动态场景是一个极具挑战性的任务。尽管OpenAI的Sora模型能够生成长达一分钟的高质量视频,但其在没有多视角视频输入的情况下,合成动...