图像生成
图像,绘画
免费AI“神器”第十三弹:会20种语言的克隆数字人突然爆火;美国 AI 机器人能提前0.8秒预测人类表情|钛媒体AGI
Digen AI - 克隆数字人Digen AI推出了一款能够支持20种语言、40+种声音的克隆数字人工具。这款工具利用生成式AI技术,可以同步手势、口型和语调,创造出逼真...
谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!
随着人工智能技术的不断进步,AIGC(人工智能生成内容)领域正迎来新的发展高潮。谷歌最新发布的Gemini 1.5 Pro模型,标志着大型语言模型(LLM)在多模态理解...
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
随着大型语言模型(LLMs)在计算机视觉领域的成功,研究者们对于图像分割基础模型的探索日益增加。Segment Anything Model(SAM)作为一个先进的图像分割基础...
没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路
2021年底,OpenAI面临数据供应短缺,耗尽了互联网上所有质量稳定的英语文本库。为开发下一代AI系统,他们开发了Whisper语音识别工具,转录YouTube视频中的音...
OpenAI创始大神手搓千行C代码训练GPT,附PyTorch迁移教程
Andrej KarpathyAndrej Karpathy,一位在人工智能领域享有盛誉的大神,近期复出并带来了一项引人注目的项目:使用纯C语言实现GPT的训练,仅用1000行代码就完...
香港大模型公司Weitu AI首秀,打造多模态Native的技术和产品
香港的Weitu AI公司近期推出了一款具有150亿参数的多模态大模型WeituAI 1.0,该模型在多个国际权威评测榜单上取得了显著成绩,不仅超越了同量级的模型,甚至...
北大&火山引擎夺冠!CLIC视频压缩挑战赛结果公布,中国团队表现亮眼
随着深度学习技术的不断进步,人工智能在图像和视频压缩领域展现出了巨大的潜力。第六届深度学习图像压缩挑战赛(CLIC大赛)的结果显示,火山引擎多媒体实验...
大模型融合!最新「进化算法」全自动组合开源模型,刷榜多项基准测试
Sakana AI团队开发了一种新方法,能够自动组合不同的开源模型,创造出具有新能力的AI系统。这种方法基于集体智慧的概念,即未来的人工智能将不是一个庞大的单...
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
最近,多模态大模型(LMM)在视觉-语言任务上取得了显著的进展,尤其是在视觉场景下的应用。然而,将LMM应用于计算机视觉任务,特别是图像分割方面,仍面临挑...
亚马逊线下店 AI 训练失败:离不开 1000 名审核人员
亚马逊的“拿货即走”技术,一度被视为零售业的一大创新,旨在通过AI视频监控系统实现无需收银员的购物体验。然而,这项技术并未达到预期效果,导致亚马逊不得...