图像生成
图像,绘画
谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
摘要:谷歌的最新研究成果ScreenAI是一个强大的视觉语言模型,它在理解和操作用户界面方面取得了显著进展。这个模型能够执行屏幕问答、内容摘要等多种任务,...
GPT-4 问世即将一周年,国内的追赶之路到底有多远?| 极客时间
OpenAI 发布的新产品 Sora 引起了广泛关注,因为它可以根据文本描述生成具有多种风格、不同画幅、最长为 60s 的高清视频,且包含丰富的细节。这一事件再次证...
谷歌创始人承认AI搞砸了,CEO或辞职
谷歌的新人工智能工具Gemini在图像生成功能上出现了严重的白人偏见问题,引发了公众争议。联合创始人布林承认了问题的存在,并表示公司在图像生成方面确实出...
Anthropic 发布 Claude 3 系列模型,世界最强模型易主!GPT-4被全面超越
在这篇文章中,介绍了Anthropic公司最新发布的Claude 3家族,包括小杯Haiku、中杯Sonnet和大杯Opus。这些模型在性能参数和响应时间上都有显著提升,Opus在多...
GPT-4时代已过?全球网友实测Claude 3,只有震撼
摘要:Anthropic发布了新一代AI大模型系列——Claude 3,包含Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus三个模型。Claude 3 Opus在多项基准测试中得分超...
世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了
Anthropic,被视为OpenAI最强的竞争对手,最近宣布推出了Claude 3系列模型,包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。这些模型不仅在性能上超越...
半数员工年薪超164万,打工人最向往的公司
在当今世界,OpenAI和英伟达是两家备受瞩目的公司。OpenAI开发了三个颠覆性产品,其中包括ChatGPT,这是一款智能聊天机器人,能够根据用户提供的文字描述提供...
一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果
苹果公司最新研发的AI工具Keyframer,能够通过文本描述将静态图像转化为动画。这项技术利用了大型语言模型(LLM)的代码生成能力,允许用户通过自然语言提示...
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
模型信息 【模型公司】 月之暗面 【模型名称】 moonshot-v1-32k 【摘要评分】 ★★★★★ 文章摘要 【关 键 词】 机器之心、Sora、多模态、AnyGPT...
CVPR 2024满分论文:浙大提出基于可变形三维高斯的高质量单目动态重建新方法
摘要:本文介绍了一种基于光栅化的单目动态场景建模pipeline,由浙江大学和字节跳动的研究团队提出。该方法通过结合变形场和3D高斯,实现了高质量的动态场景...