图像生成

图像,绘画

AI Native 的影像公司们,「惊蛰已到」!

影像设备行业正经历一场由计算能力驱动的深刻变革,光学与计算的价值配比变化成为技术迭代和产业重塑的主轴线。过去五十年间,成功的影像公司都通过推动技术...

与DeepSeek-OCR不谋而合,NeurIPS论文提出让LLM像人一样读长文本

在 NeurIPS 2025 论文中,来自南京理工大学、中南大学、南京林业大学的研究团队提出了一个极具突破性的框架 ——VIST(Vision-centric Token Compression in LL...

谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代

谷歌下一代AI图像生成工具Nano Banana 2预览版在第三方平台意外曝光,其突破性能力引发广泛关注。该版本虽未正式发布,但实测显示其生成速度提升至复杂场景仅...

银河通用全新模型统一机器人导航任务,7B参数模型支持实时部署

导航能力是机器人移动操作的基础能力,也是扩展其工作范围和应用场景的关键因素。然而,当前导航任务通常针对特定任务和机器人设计,导致大量研究精力投入任...

3D重建的惊人进展:多所世界名校联合发布论文,告诉你AI在3D世界的研究现状

高质量的3D重建技术正经历从逐场景优化到前馈模型的革命性转变。传统方法如运动恢复结构(SfM)和神经辐射场(NeRF)需要针对每个新场景进行耗时数小时至数天...

360发布全球最强视觉语言对齐模型!榜单全面领先!

360 AI Research团队推出的FG-CLIP 2模型在视觉-语言对齐领域实现了重大突破,首次在统一框架内同时解决细粒度理解和双语对齐两大挑战。该模型通过分层学习框...

清华、北大,上海交大等发布人机协同训练框架,让机器人零样本学会新技能

机器人学习领域取得突破性进展,通过人机协同训练框架MotionTrans实现了从人类演示到机器人执行的直接技能转移。该框架的核心创新在于建立了一个高效的翻译系...

彻底开源,刚我把自己的 AI 短片全部公开了

团队首次公开AI短片创作全过程,并宣布开源其制作方法。这一决定源于对创作流程复杂性的认知,以及小公司快速决策的优势。团队使用的核心工具是TapNow,一个...

邱锡鹏团队新作:让机器人学会「察言观色」

复旦大学、上海创智学院及新加坡国立大学研究团队近期发布的RoboOmni框架,突破了传统视觉-语言-动作(VLA)模型的局限,通过全模态整合实现了机器人对隐含意...

中英双语、29项第一、像素级理解:360 FG-CLIP2登顶全球最强图文跨模态模型

当前AI生成的视觉内容虽然炫酷,但在细节理解和空间关系处理上仍存在明显缺陷。例如,要求生成「穿红外套的猫站在蓝色跑车左边」或搜索「引擎盖有鸟粪的特斯...
1 2 3 150