图像生成

图像,绘画

AI绘画中CLIP文本-图像预训练模型

感谢您提供的文章总结。下面是对文章中所有重要的词语或语句进行加粗处理:介绍OpenAI 在 2021 年提出了 CLIP(Contrastive Language–Image Pretraining)算...

港大与TikTok合作研发Depth Anything,从单张图像解锁深度信息,引领MDE新纪元

这篇文章主要介绍了单目深度估计(MDE)面临的挑战和机遇,以及香港大学和TikTok合作研发的Depth Anything模型的技术创新和应用前景。文章首先指出MDE面临数...

OpenAI 危险了?Gemini 和 GPT4 比较,谁强,只需两张图秒懂;Gemini 天生多模态,很可能是不一样的技术路线

Gemini 和 GPT-4 是两种人工智能模型,Gemini 天生多模态,而 GPT-4 是靠多功能的拼装。 Gemini 在多个测试中得分均高于 GPT-4,包括一般性测试、复杂任务集...

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

这篇文章介绍了一种名为InstantID的图像生成技术,它能够通过上传一张照片,即刻生成多种风格的AI写真。这项技术由小红书的95后团队InstantX开发,受到了广泛...

生成式人工智能AIGC的前世今生和未来

生成式人工智能的开发涉及数据收集、模型训练、评估、优化、部署、监控和维护等多个领域。随着技术的发展,一些新的挑战和问题也随之而来,如平衡生成结果的...

InstantID彻底火了!来自中国的开源项目,图灵奖得主Yann LeCun点赞(附论文及源码)

文章最后还推荐了其他相关阅读内容,包括AIHIA人才联盟的招募、AI融资信息以及AI项目应用的教程。同时,作者还邀请感兴趣的人加入AIHIA人才联盟,并鼓励大家...

年轻人的AI新玩具:Vary-toy,1080Ti轻松驾驭的多模态大模型!

Vary-toy的核心目标是为视觉-语言模型提供更丰富的视觉词汇库,使其能够更准确地理解和描述复杂的视觉场景,提升了模型在文档OCR和对象检测等任务上的表现,...

LLaMA-VID:突破视觉语言模型界限,精准捕捉图像精髓

LLaMA-VID模型的主要目标是处理长时视频,并面临着挑战。为了解决这些挑战,采用了创新的方法。该模型的技术方案包括采用了关键Token,并详细描述了其作用。L...

谷歌把GenAI装进Chrome

作者信息 【原文作者】 51CTO技术栈 【作者简介】 追踪 IT 新动向,赋能全球技术人员成长。 【微 信 号】 blog51cto   文章摘要 【关 键 词】 Ch...

文心一言4.0的使用体验如何?大测评!

文章总结如下:第一部分介绍了文心4.0的语义理解能力,通过测试“一词多义”的句子,文心4.0给出了准确、详细的回复,展现了其语义理解能力的进步。第二部分测...
1 116 117 118 119 120