标签:推理能力

两天内,Meta 和 Mistral 两款主流大模型打擂台!已经不仅卷性能了,谁更便宜就用谁?

法国AI初创公司Mistral发布了其旗舰级开源模型Mistral Large 2,拥有1230亿个参数,与Meta和OpenAI的最新模型在代码生成、数学和推理方面表现相当。Mistral L...

OpenAI 秘密武器曝光!Q* 推理能力大爆发,逼近 AGI L2 里程碑

OpenAI的AGI路线图最近引起了广泛关注,该路线图将人工智能的发展分为五个等级:L1的聊天机器人、L2的推理者、L3的智能体、L4的创新者和L5的组织者。OpenAI的...

OpenAI新模型「草莓」曝光:强推理/长任务规划/超大规模训练!还给出AGI分级

OpenAI正在开发一个名为“草莓”的新模型,它是Q*模型的后继者。尽管“草莓”的工作机制在内部被严格保密,但据悉,它在超大规模数据集上完成了预训练,并采用了...

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

张天宇在其研究中提出了一种名为视觉字幕恢复(Visual Caption Restoration, VCR)的新任务,旨在探究视觉语言模型(Vision-Language Models, VLM)的推理能...

GPT-4被证实具有「人类心智」登Nature!AI比人类更好察觉讽刺和暗示

经过Nature子刊《自然·人类行为》的研究,针对AI心智理论进行了深入测试和比较。研究采用多项心理测试,发现GPT-4在大部分测试项目上的表现明显优于人类,尤...

面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B

面壁智能近期低调开源了一个名为Eurux-8x22B的大模型,该模型在复杂推理综合性能方面超越了Llama3-70B,成为新的开源大模型SOTA(State of the Art),并被誉...

生图超级外挂!贾佳亚团队提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸组合

香港中文大学终身教授贾佳亚团队提出了一款名为Mini-Gemini的多模态模型,该模型结合了更高清图像的精确理解、更高质量的训练数据以及更强的图像解析推理能力...

超越GPT-4V,苹果多模态大模型上新!

苹果发布了最新的多模态大语言模型(MLLM)Ferret-UI,该模型在理解和与屏幕信息交互方面表现出卓越性能,超越了GPT-4V。Ferret-UI专为理解移动UI屏幕而设计...

GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%

新智元最近报道了关于GPT-4和Claude 3的推理能力的争议。一位名叫Taelin的程序员和初创公司Higher Order的创始人,对GPT模型的推理能力表示怀疑,他认为GPT模...

谷歌 Gemini vs. OpenAI ChatGPT,谁更胜一筹?

在本文中,作者通过提出九大问题,对ChatGPT的免费版本和谷歌Gemini的免费版本进行了全方位比较。首先,在编码能力方面,Gemini在编写一个简单的Python程序方...
1 2 3 4 5