标签:推理能力

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

张天宇在其研究中提出了一种名为视觉字幕恢复(Visual Caption Restoration, VCR)的新任务,旨在探究视觉语言模型(Vision-Language Models, VLM)的推理能...

GPT-4被证实具有「人类心智」登Nature!AI比人类更好察觉讽刺和暗示

经过Nature子刊《自然·人类行为》的研究,针对AI心智理论进行了深入测试和比较。研究采用多项心理测试,发现GPT-4在大部分测试项目上的表现明显优于人类,尤...

面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70B

面壁智能近期低调开源了一个名为Eurux-8x22B的大模型,该模型在复杂推理综合性能方面超越了Llama3-70B,成为新的开源大模型SOTA(State of the Art),并被誉...

生图超级外挂!贾佳亚团队提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸组合

香港中文大学终身教授贾佳亚团队提出了一款名为Mini-Gemini的多模态模型,该模型结合了更高清图像的精确理解、更高质量的训练数据以及更强的图像解析推理能力...

超越GPT-4V,苹果多模态大模型上新!

苹果发布了最新的多模态大语言模型(MLLM)Ferret-UI,该模型在理解和与屏幕信息交互方面表现出卓越性能,超越了GPT-4V。Ferret-UI专为理解移动UI屏幕而设计...

GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%

新智元最近报道了关于GPT-4和Claude 3的推理能力的争议。一位名叫Taelin的程序员和初创公司Higher Order的创始人,对GPT模型的推理能力表示怀疑,他认为GPT模...

谷歌 Gemini vs. OpenAI ChatGPT,谁更胜一筹?

在本文中,作者通过提出九大问题,对ChatGPT的免费版本和谷歌Gemini的免费版本进行了全方位比较。首先,在编码能力方面,Gemini在编写一个简单的Python程序方...

谷歌Deepmind提出LLMs“自我发现”框架,提升GPT-4性能

谷歌Deepmind与南加州大学的研究人员提出了一种名为“自我发现”的新提示框架,以提高大型语言模型(LLMs)的推理能力。该方法已在arXiV和Hugging Face上发布,...