图像生成
图像,绘画
图像编辑新神器:英伟达用拍电影思维解决图像编辑与世界模拟一致性难题
AI图像编辑领域长期面临物理一致性难题,特别是在物体移动或环境转换等复杂编辑任务中,传统方法容易产生违反物理规律的失真结果。 NVIDIA与多伦多大学联合提...
TRAE SOLO正式版上线,我用30分钟写了一个想做了半年的网站。
字节跳动旗下编程工具TRAE SOLO结束内测阶段,正式推出全量版本并限时免费开放。该产品最初定位为类似Cursor的IDE工具,但随着Agent技术热潮的兴起,逐渐转型...
你以为在点「红绿灯」验证身份,其实是在给AI免费打工
最近一篇调侃「我不是机器人」验证流程的帖子引发广泛关注,视频中用户需用鼠标将灰色「猫屎团」拖到垃圾桶,最后勾选「我不是猫」才能通过验证。该帖浏览量...
打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点
3D Gaussian Splatting (3DGS)是一种基于各向异性3D高斯体构建场景表示的新视角合成技术,能够通过带位姿的图像训练快速渲染未见视角,在渲染速度和图像质量...
AI Native 的影像公司们,「惊蛰已到」!
影像设备行业正经历一场由计算能力驱动的深刻变革,光学与计算的价值配比变化成为技术迭代和产业重塑的主轴线。过去五十年间,成功的影像公司都通过推动技术...
与DeepSeek-OCR不谋而合,NeurIPS论文提出让LLM像人一样读长文本
在 NeurIPS 2025 论文中,来自南京理工大学、中南大学、南京林业大学的研究团队提出了一个极具突破性的框架 ——VIST(Vision-centric Token Compression in LL...
谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
谷歌下一代AI图像生成工具Nano Banana 2预览版在第三方平台意外曝光,其突破性能力引发广泛关注。该版本虽未正式发布,但实测显示其生成速度提升至复杂场景仅...
银河通用全新模型统一机器人导航任务,7B参数模型支持实时部署
导航能力是机器人移动操作的基础能力,也是扩展其工作范围和应用场景的关键因素。然而,当前导航任务通常针对特定任务和机器人设计,导致大量研究精力投入任...
3D重建的惊人进展:多所世界名校联合发布论文,告诉你AI在3D世界的研究现状
高质量的3D重建技术正经历从逐场景优化到前馈模型的革命性转变。传统方法如运动恢复结构(SfM)和神经辐射场(NeRF)需要针对每个新场景进行耗时数小时至数天...
360发布全球最强视觉语言对齐模型!榜单全面领先!
360 AI Research团队推出的FG-CLIP 2模型在视觉-语言对齐领域实现了重大突破,首次在统一框架内同时解决细粒度理解和双语对齐两大挑战。该模型通过分层学习框...






