标签:多模态
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
中国生数科技推出的Vidu 1.5模型,成为全球首个支持多主体一致性的多模态视频生成模型,颠覆了传统单点微调方法,标志着视频模型统一理解和生成的飞跃。Vidu ...
百度打通两大国民产品!六边形AI创作新物种「自由画布」来了
百度推出了名为“自由画布”的AI创作工具,它是一个多模态大模型支持的万能白板,能够处理任何格式的素材输入,并生成用户所需的任何格式内容。这个工具无需特...
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
斯坦福大学李飞飞和吴佳俊团队推出了HourVideo,一个旨在评估多模态模型对长达一小时视频理解能力的基准数据集。HourVideo包含500个来自Ego4D数据集的第一人...
国产AI可以拍微电影了!4K、60帧高清画质,自带音效
智谱公司推出的新AI技术“清影”标志着国产AI在视频生成领域的一大进步,将视频生成技术带入了有声电影时代。清影具备三大特点:电影级效果,支持4K、60帧高清...
xAI、Anthropic同日上线API:Grok免费公测,Claude Haiku价格暴涨
Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型更新了截至2024年...
智谱AI COO 张帆:榨干端侧的每一分算力,做极致调优,让AI在硬件上非常能打
在硅星人AI创造者大会(ACC 2024)上,智谱AI COO张帆与硅星人创始人、CEO骆轶航就智谱AI与智能终端的合作进行了深入对话。骆轶航提到智谱AI在多模态和自然语言...
AI圈卷疯了!xAI、Anthropic同日上线API:Grok免费公测,Claude 3.5 Haiku价格暴涨
Anthropic公司宣布其最新的人工智能模型Claude 3.5 Haiku现已开放API访问,并在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供服务。该模型...
统一图像生成,无需繁杂插件!智源发布扩散模型框架OmniGen
智源研究院最近推出了一款名为OmniGen的新型扩散模型框架,该框架在图像生成领域具有多项创新特性。OmniGen能够天然支持多种图像生成任务,包括文生图、图像...
在RTE2024,窥见实时AGI的未来
AI技术的进步正在改变人机交互的方式,特别是在实时交互(RTE)领域。OpenAI的GPT-4o模型通过Realtime API为开发者提供了低延迟、自然流畅的对话能力,使得智...
小红书大模型团队的探索与实践:从 0 到 1 构建自研 RLHF 框架
在人工智能技术快速发展的背景下,多模态大语言模型(MLLM)因其在图文理解、创作、知识推理及指令遵循方面的能力,成为数字化转型的重要推动力。小红书大模...