标签:多模态

OpenAI 发布实时 API,AI 实时语音时代如何抢占风口?

今年的RTE大会上,实时互动与AI的结合将展现巨大潜力。OpenAI发布的实时API公开测试版,基于GPT-4o语音到语音的AI应用和智能体,标志着实时语音交互能力的新...

号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law

Ai2公司推出了一款名为Molmo的多模态人工智能模型,该模型在功能上类似于钢铁侠的智能助手“贾维斯”。Molmo能够通过一张照片识别自行车的颜色、品牌和二手售价...

给机器人装上「虫脑」?非Transformer液态神经网络终于来了!MIT CSAIL负责人创业成果

Liquid AI是一家专注于开发新型人工智能模型的初创公司,由MIT计算机科学与人工智能实验室(CSAIL)的前研究人员创立。该公司旨在超越现有的生成式预训练Tran...

MIT系初创打破Transformer霸权!液体基础模型刷新SOTA,非GPT架构首次显著超越Transformer

MIT系初创公司Liquid AI推出了一种新型多模态非Transformer模型——液体基础模型LFM,该模型在基准测试中超越了现有的Transformer模型,成为新的SOTA(State of...

Meta开源多模态模型——Llama 3.2

Meta公司最近发布了其首个多模态大语言模型(LLM)Llama-3.2,标志着Llama系列的重大升级。此次升级包括四个不同规模的模型,旨在满足不同应用场景的需求。Ll...

天下苦LangChain久矣

Ell 是一个新发布的语言模型编程库,旨在与 LangChain、Llama-Index 和 DSPy 等现有库竞争,甚至有可能取代它们。Ell 的核心维护者对 LangChain 的抽象表示不...

「群体智能」剑指AGI革命!国产架构挑战Transformer霸权,首款非Attention模型更新

国内AI初创团队RockAI提出了一种新的方法来实现通用人工智能(AGI),即通过“群体智能”来赋予每个设备智能,并实现类人交互。他们认为,要实现这一目标,需要...

后发先至,字节版 Sora 发布!10秒长度、多主体交互、一致性多镜头

字节跳动公司近期发布了豆包大模型的多款新品,标志着其在人工智能领域的进一步拓展。这些新品包括视频生成、音乐生成和同声传译大模型,展示了公司在AI视频...

万字推演OpenAI o1 self-play RL 技术路线

曹宇在其文章中深入分析了OpenAI的新型自我博弈强化学习(RL)模型o1,该模型在数理推理领域取得了显著成绩,并提出了训练时计算(train-time compute)和测...

阿里国际发布最新版多模态大模型Ovis,拿下开源第一

阿里国际AI团队最近发布了一款名为Ovis的多模态大模型,该模型在图像理解任务上取得了显著进展,多项子类任务达到了SOTA(最新技术)水平。多模态大模型相较...
1 10 11 12 13 14 24