图像生成
图像,绘画
OpenAI 重磅发布的GPT-4 Turbo with Vision,是编码的倒退
OpenAI 最近发布了最新的 GPT-4 Turbo with Vision 模型,该模型在 GPT-4 Turbo 系列的基础上新增了视觉理解能力,可以处理和分析多媒体输入信息。这一革新使...
超越GPT-4V,苹果多模态大模型上新!
苹果发布了最新的多模态大语言模型(MLLM)Ferret-UI,该模型在理解和与屏幕信息交互方面表现出卓越性能,超越了GPT-4V。Ferret-UI专为理解移动UI屏幕而设计...
苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V
随着大模型的兴起,科技巨头和创业公司都在新一轮的技术竞赛中寻求优势。苹果公司,尽管长期处于行业领先地位,却在大模型领域显得稍有落后。然而,苹果最近...
免费AI“神器”第十三弹:会20种语言的克隆数字人突然爆火;美国 AI 机器人能提前0.8秒预测人类表情|钛媒体AGI
Digen AI - 克隆数字人Digen AI推出了一款能够支持20种语言、40+种声音的克隆数字人工具。这款工具利用生成式AI技术,可以同步手势、口型和语调,创造出逼真...
谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!
随着人工智能技术的不断进步,AIGC(人工智能生成内容)领域正迎来新的发展高潮。谷歌最新发布的Gemini 1.5 Pro模型,标志着大型语言模型(LLM)在多模态理解...
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
随着大型语言模型(LLMs)在计算机视觉领域的成功,研究者们对于图像分割基础模型的探索日益增加。Segment Anything Model(SAM)作为一个先进的图像分割基础...
没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路
2021年底,OpenAI面临数据供应短缺,耗尽了互联网上所有质量稳定的英语文本库。为开发下一代AI系统,他们开发了Whisper语音识别工具,转录YouTube视频中的音...
OpenAI创始大神手搓千行C代码训练GPT,附PyTorch迁移教程
Andrej KarpathyAndrej Karpathy,一位在人工智能领域享有盛誉的大神,近期复出并带来了一项引人注目的项目:使用纯C语言实现GPT的训练,仅用1000行代码就完...
香港大模型公司Weitu AI首秀,打造多模态Native的技术和产品
香港的Weitu AI公司近期推出了一款具有150亿参数的多模态大模型WeituAI 1.0,该模型在多个国际权威评测榜单上取得了显著成绩,不仅超越了同量级的模型,甚至...
北大&火山引擎夺冠!CLIC视频压缩挑战赛结果公布,中国团队表现亮眼
随着深度学习技术的不断进步,人工智能在图像和视频压缩领域展现出了巨大的潜力。第六届深度学习图像压缩挑战赛(CLIC大赛)的结果显示,火山引擎多媒体实验...