视频生成
视频,video
视频可以精准控制了!一句话给熊戴眼镜的那种,扩散模型立功,浙大悉尼科技大学出品 | ICLR 2025
随着视频生成技术的快速发展,视频编辑作为其中的一个重要方向,逐渐成为研究热点。然而,传统的视频编辑方法通常局限于风格转换或单一目标的编辑,难以满足...
前字节跳动AI技术专家加盟千寻智能,出任具身智能部负责人
前字节跳动AI技术专家解浚源近日宣布加入具身智能创业公司千寻智能,并担任具身智能部负责人,全面负责具身大模型的研发工作。解浚源拥有丰富的AI领域经验,...
OpenAI语音智能体诞生,怼脸实拍语气狂到飞起!API降到每分钟0.3美分
OpenAI最新发布的音频模型标志着语音智能体时代的正式开启。此次发布的三款模型——gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,分别专注于...
独家 | 前 TikTok 算法负责人陈志杰创立新公司「言创万物」,聚焦 AI Coding
陈志杰,前TikTok算法负责人,离职后创立了新公司“言创万物”,专注于AI Coding领域。该公司由陈志杰和原百度电商研发负责人刘晓春共同创立,陈志杰持股52.5%...
华为的新折叠屏 Pura X,可能是第一代 AI 原生手机
华为在3月20日的发布会上推出了全新的折叠屏手机Pura X,这款手机以其独特的屏幕设计和创新的功能成为焦点。Pura X采用了16:10比例的6.3英寸内屏和3.5英寸正...
波士顿动力真「翻」不过宇树、众擎!一觉醒来,全世界的机器人都在侧空翻
宇树机器人发布了一段视频,首次展示了人形机器人完成侧空翻的动作,引发了广泛关注。不到12小时后,波士顿动力也发布了一段视频,展示了其Atlas机器人不仅完...
被谷歌点名感谢!杭州六小龙开源黑科技,让机器人瞬间「悟透」3D世界
群核科技近期开源了空间理解模型SpatialLM,该模型通过视频理解物理世界的几何关系,并将其转化为机器能读懂的指令,相当于教会机器用人类直觉感知世界。Spat...
英伟达开源通用机器人大模型—GR00T N1
全球AI领导者英伟达在“GTC 2025”开发者大会上宣布开源人形机器人通用大模型GR00T N1,该模型能够处理多模态数据,包括语言、图像和视频,适用于家务、工厂等...
下一代GPU发布,硅光隆重登场,英伟达还能火多久?
在年度科技盛会GTC上,英伟达首席执行官黄仁勋宣布了多项重要进展,涵盖了芯片、AI和数据中心等多个领域。美国四大云端龙头企业今年已采购360万个Blackwell芯...
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
昆仑万维近期发布了Skywork R1V系列模型,这一多模态思维链推理模型在视觉推理和通用推理能力上达到了SOTA级别,成为国内首家开源多模态思维链推理模型的企业...