标签:模型优化
o1突发内幕曝光?谷歌8月论文已揭示原理,大模型光有软件不存在护城河
谷歌DeepMind的一篇论文揭示了一种新的计算策略,该策略与OpenAI的o1模型的工作方式几乎一致。这项研究指出,在测试时增加计算比扩展模型参数更有效,这使得...
Andrej Karpathy最新激进观点:Transformer将超越人脑
Andrej Karpathy,前OpenAI成员及特斯拉自动驾驶计算机视觉团队领导者,近期在播客节目No Priors中分享了他对AI未来的激进观点。Karpathy认为,Transformer模...
视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law
ControlNeXt是一款由思谋科技创始人贾佳亚团队开发的图像和视频生成控制工具,它在生成速度、精准控制和用户友好性方面进行了全方位优化。相较于斯坦福大学研...
对话 Nexa AI:两位斯坦福95后,做出比GPT-4o快4倍的小模型,直指“端侧版Hugging Face”
Nexa AI,一家由斯坦福校友创立的公司,近期在人工智能领域取得了显著成就。公司开发的Octopus v2模型以其5亿参数量在硅谷AI界引起了广泛关注,其Functional ...
DeepSeek开源数学大模型,高中、大学定理证明新SOTA
数学家陶哲轩在牛津数学公开讲座中提出,人工智能(AI)与数学的结合将推动形式化证明的编写超越人类,这不仅将验证现有证明,还将创造新的数学知识。AI在形...
成本直降90%、延迟缩短80%!Anthropic将API玩出了新花样,网友:应该成为行业标配
Anthropic公司在其API中引入了一项创新功能——提示词缓存,旨在显著降低长提示的成本和延迟。该功能通过记住API调用之间的上下文,帮助开发人员避免重复输入相...
谷歌开源最强端侧小模型:2B参数越级跑赢GPT-3.5-Turbo,苹果15Pro运行飞快
谷歌近期在人工智能领域取得了显著进展,特别是在开发高效且安全的AI模型方面。该公司开源了Gemma 2模型系列,包括9B和27B版本,并在对话任务中展现出超越规...
13.11 和 13.8 哪个大,不只是人类,为什么连大模型也翻车了?
在《歌手2024》第十期竞演排名公布后,社交媒体上的观众对数字大小的比较产生了疑问,而一些AI大模型在回答这类问题时也出现了错误。例如,当被问及'9.11和9....
直击算力焦虑,这家清华系 AI 创企搞了个千卡异构混训平台,算力利用率最高达 97.6%
GPT-4等大型模型在自然语言处理、机器翻译和文本生成等领域取得了显著成就,但随着模型参数的增加,计算和内存需求也随之增加,给算力和内存带来了巨大挑战。...
清华汪玉教授团队支招:如何把“大”模型部署到“小”设备上 | Q福利
2024年,AI驱动的应用产品如GPT-4o等因其广泛的应用前景而受到广泛关注,这促使大量资源被投入到AI的基础建设中,包括算法研究、数据清洗和算力提升。这些应...