图像生成
图像,绘画
大神Karpathy炮轰复杂UI应用没有未来,Adobe首当其冲,网友:不提供文本交互,就是在阻挡AI浪潮
在人与AI高度协同的时代,Karpathy预言,仅依赖复杂UI界面的应用程序将面临淘汰,特别是Adobe和CAD等软件。他提出,复杂的UI界面无法与大模型形成有效的人机...
WWDC25 前瞻:iOS 19 跳至 26,iPad 全面“Mac 化”
Apple 将在 2025 年 6 月 10 日至 14 日举行年度全球开发者大会(WWDC25),此次大会预计将带来自 2013 年 iOS 7 发布以来最重大的变革。首先,苹果将改变其...
马斯克的xAI以1130亿美元估值,出售3亿美元股权
马斯克旗下的大模型平台xAI正以1130亿美元的估值出售3亿美元股权,尽管具体细节尚未完全披露,但该公司已与潜在投资者就私募配售事宜展开磋商。若此次融资成...
招生信息 | 英国莱斯特大学举雅琨老师招收博士生了!
举雅琨博士自2024年起任职于英国莱斯特大学计算机与数学科学学院,担任助理教授。他长期致力于计算机视觉与图像处理领域的研究,尤其在三维重建、光度立体、...
单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满
智源研究院近日发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解任务中表现出色,显著提升了多模态大模型对长视频内容的理解能力。Video-XL-2在M...
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
长视频理解作为多模态大模型的关键能力之一,尽管OpenAI GPT-4o和Google Gemini等私有模型已取得显著进展,但开源模型在效果、计算开销和运行效率等方面仍存...
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
AI生图领域有新突破,新模型FLUX.1 Kontext可同时接受文本和图像输入,它采用流匹配架构,与此前技术不同,由Black Forest Labs推出,官方称能真正实现上下文...
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
德国初创公司 Black Forest Labs(BFL)发布了名为 FLUX.1 Kontext 的全新图像生成模型,可实现图像生成和编辑,并允许添加文本及其他图像进行内容修改。模型...
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
近期基于扩散模型的视觉 - 语言模型 LaViDa 诞生,继承了扩散语言模型高速且可控的优点,实验表现出色。当前流行的 VLM 多基于自回归(AR)的大型语言模型(L...