图像生成

图像,绘画

马斯克的xAI以1130亿美元估值,出售3亿美元股权

马斯克旗下的大模型平台xAI正以1130亿美元的估值出售3亿美元股权,尽管具体细节尚未完全披露,但该公司已与潜在投资者就私募配售事宜展开磋商。若此次融资成...

招生信息 | 英国莱斯特大学举雅琨老师招收博士生了!

举雅琨博士自2024年起任职于英国莱斯特大学计算机与数学科学学院,担任助理教授。他长期致力于计算机视觉与图像处理领域的研究,尤其在三维重建、光度立体、...

单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满

智源研究院近日发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解任务中表现出色,显著提升了多模态大模型对长视频内容的理解能力。Video-XL-2在M...

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解作为多模态大模型的关键能力之一,尽管OpenAI GPT-4o和Google Gemini等私有模型已取得显著进展,但开源模型在效果、计算开销和运行效率等方面仍存...

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...

AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入

AI生图领域有新突破,新模型FLUX.1 Kontext可同时接受文本和图像输入,它采用流匹配架构,与此前技术不同,由Black Forest Labs推出,官方称能真正实现上下文...

AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队

德国初创公司 Black Forest Labs(BFL)发布了名为 FLUX.1 Kontext 的全新图像生成模型,可实现图像生成和编辑,并允许添加文本及其他图像进行内容修改。模型...

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

近期基于扩散模型的视觉 - 语言模型 LaViDa 诞生,继承了扩散语言模型高速且可控的优点,实验表现出色。当前流行的 VLM 多基于自回归(AR)的大型语言模型(L...

巧妙!一个传统技术让国产视觉基础模型直接上大分

格灵深瞳最新发布的视觉基础模型Glint-MVT在多个领域展现了显著的技术突破。该模型通过引入间隔Softmax损失函数,显著提升了泛化能力,并在26个分类测试集中...

靠「AI婴儿播客」拿到a16z 3200万美元投资,Hedra凭什么?

Hedra,一家生成式 AI 初创公司,近期完成了 3200 万美元的 A 轮融资,由 Andreessen Horowitz(a16z)领投,总融资额达到 4400 万美元。与市场上其他生成式 ...
1 7 8 9 10 11 135