图像生成
图像,绘画
谷歌创新框架:从非结构化数据,实现多模态学习
在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络易出现过拟合和泛化不...
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
近期研究表明,通过训练纯解码器生成模型,可以成功地生成包括音频、图像和状态-动作序列在内的多种模态的新序列。这些模型通常采用词汇扩展方法实现多模态表...
ControlNet作者搞起大模型:让天下没有难写的生图提示词,一句话变构图小作文
量子位报道,ControlNet作者Lvmin Zhang推出了新项目Omost,旨在通过人工智能技术解决AI绘画中的提示词写作难题。用户只需提供一句简单的提示词,Omost即可自...
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
在当前的计算机视觉领域,Vision Transformer(ViT)与传统的卷积神经网络(CNN)之争正日益激烈。近期,图灵奖得主、Meta首席科学家Yann LeCun对这场争论发...
AI在咳嗽中检出癌症,不信?世卫组织正全球推广
在联合国AI for Good峰会上,中国AI技术取得显著关注。阿里达摩院医疗AI团队负责人吕乐博士分享了一项全球首创的AI多癌筛查技术,该技术已获得国际认可,并在...
GPT-4o 引爆小红书打卡潮,推动 Vision Pro想象,刷新微软、Adobe 产品线
GPT-4o 的多模态视觉能力引发了社交媒体上的热议,尤其是在小红书上,用户们热衷于测试其识别街景的能力。与其它多模态 AI 模型相比,GPT-4o 显示出了更高的...
新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测
在人工智能领域,模型能力的比较一直是一个重要的研究方向。近期,滑铁卢大学的TIGER实验室推出的GenAI-Arena平台,为模型比较提供了一个新的场所。在文生图...
OpenAI最新消息:YC创始人辟谣奥尔特曼被“炒鱿鱼”传闻,公布 AI 安全最新技术|钛媒体AGI
硅谷孵化器Y Combinator联合创始人保罗·格雷厄姆针对有关OpenAI CEO山姆·奥尔特曼被YC解雇的谣言进行了辟谣。他指出,奥尔特曼实际上同时管理着YC和OpenAI,...
视觉错觉也能识别?被忽略的 Gemini 1.5 Flash 有哪些神奇表现?|AI 鲜测
在2024年的谷歌I/O大会上,推出了名为Gemini 1.5 Flash的AI模型,该模型以其轻量级、高效率和强大的多模态处理能力著称,能够同时处理文本、图像、音频和视频...
大模型的 5 月:热闹的 30 天和鸿沟边缘
根据文章内容,以下是详细的分段摘要总结:技术进步放缓近期,大模型行业似乎出现了技术进步放缓的现象。OpenAI新发布的GPT-4o在文本处理能力上与GPT-4相比提...