“模型评测”的搜索结果

能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了
摘要:2023年,多模态大语言模型(MLLM)在文本、代码、图像、视频等领域取得了显著进展。上海人工智能实验室联合多所大学发布了一份详...
大语言模型评测是怎么被玩儿烂的?我们跟知情人聊了一个下午
大模型评测面临着一些挑战,包括评测成本和时间成本高,以及数据泄露导致的过拟合问题。一些大模型公司通过刷题来提高分数,这已经成为...
00后国人论文登Nature,大模型对人类可靠性降低
这篇论文探讨了大型语言模型(LLMs)的可靠性问题,发现随着模型规模的增大,其在遵循指令方面的表现反而变得不可靠。研究指出,即使是...
李沐重返母校,上交大秒变追星现场,大模型趋势无保留分享
李沐,一位在人工智能领域享有盛誉的专家,近日在上海交通大学(上交大)的演讲吸引了大量学生和教职工的热烈追捧,现场座无虚席,甚至...
大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待
MMLU-Pro,一个旨在衡量大型语言模型性能的权威测试,近期遭遇了信任危机。原本被认为能为前沿模型提供区分度的MMLU-Pro,现在被指出其...
OpenAI 断供中国大陆市场,零一万物 Yi API 二折平替 GPT-4o
6月25日,多名开发者收到了来自OpenAI的公告,宣布将于7月9日开始封锁来自非支持国家和地区的API流量。中国大陆和中国香港等地未在OpenA...
小红书这场大模型论文分享会,集齐了四大国际顶会的作者
大模型正在引领新一轮的研究热潮,业界和学术界都在这一领域涌现出众多创新成果。小红书技术团队也在这一浪潮中不断探索,并在多个国际...
IDC最新报告,7大维度11家大模型厂商比拼,唯一全优是谁?
国际数据公司(IDC)最新发布的大模型实测报告对当前市场上11家大模型厂商的16款产品进行了全面评估。该报告从基础能力和应用能力两大类...
昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理
昆仑万维宣布开源其千亿稀疏大模型Skywork-MoE,此模型基于先前的Skywork-13B模型中间checkpoint扩展而成,是首个将MoE Upcycling技术应...
中国版 Runway 新功能上线,图生视频动效更强
爱诗科技发布的视频生成工具PixVerse,最新上线了Magic Brush运动笔刷功能。该功能允许用户通过涂抹区域和绘制轨迹的方式,对视频中的多...
1 2 3