图像生成
图像,绘画
CVPR前沿观察:AI下半场,阿里云破题Agent
在Agent时代,人工智能的核心挑战已从单纯的视觉感知转向对复杂世界的理解、生成及与真实业务的融合。决定智能体能否进入业务流程的关键,在于其处理复杂输入...
ICLR 2026|美图提出位置编码场 PE-Field ,让 DiT 感知和控制 3D 空间
随着视频和3D生成走向专业化内容生产端,AI创作对空间一致性和可控性的要求不断提升。然而,现有生成模型在处理连续视角或动态运动时,往往难以维持稳定的空...
端侧AI三强对决:苹果认输、谷歌死磕、中国堆参数,谁赢了?
全球手机行业的竞争焦点已从接入大模型转向将模型、芯片、系统和入口整合为默认能力。在端侧人工智能赛道上,苹果、谷歌与中国厂商展现出三种截然不同的底层...
Arm 神经技术与虚幻引擎 MegaLights 首登移动端,手游画质跨入电影时代
移动游戏图形技术长期面临画质与设备功耗、散热间的核心矛盾。为此,Arm与Sumo Digital联合推出《光影新生》技术演示项目。该项目首次将神经图形技术完整嵌入...
入围CVPR 2026最佳论文决选,ViT³用「测试时训练」突破Transformer复杂度瓶颈
阿里巴巴与清华大学合作的研究提出了ViT³模型,旨在解决视觉Transformer在处理高分辨率图像和复杂多模态输入时计算与显存成本急剧增加的问题。该研究将测试时...
CVPR 2026|告别「一属性一训练」,美图&北交大提出统一属性编辑框架 All-in-One Slider
生成式AI在影像内容生产中面临语义高度纠缠的问题,导致在调整人物属性时容易破坏整体结构或改变其他特征。为实现对生成图像的可解释、细粒度及连续属性操纵...
谷歌干掉了「等你说完才翻译」!70+语言边听边译
Google近期发布了名为Gemini 3.5 Live Translate的最新语音对语音翻译模型,标志着实时同声传译技术的重大突破。该模型打破了传统翻译设备“等待说完再翻译”的...
HiDream-O1-Image-1.5 刷新国产图像生成模型纪录:砍掉 VAE,是图像模型的未来吗?
智象未来发布的HiDream-O1-Image-1.5文生图模型在Artificial Analysis榜单上跃升至第三位,展现出全球视觉生成大模型第一梯队的竞争力。通过与竞品的八维盲测...
深扒151份JD,揭秘“数据标注员”:两极分化,30倍薪水差,残酷的未来
数据标注作为人工智能发展背后的人类底座,其行业生态与岗位要求正经历深刻变革。当前数据标注岗位的月薪存在巨大差异,首尾相差可达三十多倍,这种收入鸿沟...
帮大家总结了一下凌晨的苹果WWDC26。
苹果WWDC 2026发布会以平稳的姿态落幕,这也是蒂姆·库克作为首席执行官最后一次主持该活动,整场发布会的核心主题全面聚焦于人工智能技术的深度整合与应用。...





