大模型
LLM,VLM,模型
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
在训练细节方面,Meta采用了全新的训练技术MetaP,通过设置关键模型超参数,实现了在不同批量大小、模型宽度和深度之间的良好扩展和泛化。Llama 4系列在200种...
从0到1玩转MCP:AI的「万能插头」,代码手把手教你!
在人工智能快速发展的背景下,大型语言模型(LLM)的能力虽然令人惊叹,但其局限性也逐渐显现,尤其是它们无法直接访问实时信息或外部工具。为了解决这一问题...
Meta推出Llama 4:MoE构架、原生多模态、10M上下文,没有发布推理模型
Meta 创始人兼首席执行官马克·扎克伯格宣布推出全新 Llama 4 系列模型,包括两款即时可用的模型——Llama 4 Maverick 和 Llama 4 Scout,以及一款仍在训练中的...
10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型
多模态大语言模型在实际应用中展现出卓越性能,但其计算开销和显存占用问题仍然是关键瓶颈。KV cache机制通过显存换取计算效率,但随着输入数据规模的增大,...
奥特曼官宣:免费GPT-5性能惊人,o3和o4-mini抢先上线!Llama 4也鸽了
OpenAI首席执行官奥特曼近日宣布了多项关于GPT-5的重磅消息,包括其免费开放计划以及整合多项尖端技术的策略。尽管GPT-5的发布将推迟几个月,但奥特曼强调,...
一张照片秒生好莱坞级运镜!子弹时间/推拉环绕,AI视频注入电影级灵魂
Higgsfield AI最新推出的Motion Controls AI视频生成技术,标志着AI在电影级动作捕捉和视频生成领域取得了显著进展。该技术能够通过一张静态图像生成具有真实...
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文,提出了SPCT(Self-Principled Critique Tuning)...
7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?
香港大学与华为诺亚方舟实验室合作开发的扩散推理模型 Dream 7B,在开源扩散语言模型领域取得了新的突破,成为当前性能最佳的模型。该模型在通用能力、数学推...
整整157页,比尔盖茨亲自公开微软起家的源代码:Altair Basic
微软创始人比尔·盖茨公开了Altair Basic的源代码,这段代码不仅是微软的起点,也是个人计算机革命的重要里程碑。 Altair Basic是比尔·盖茨和保罗·艾伦在1975...
全球前十AI应用,国产占半壁江山,夸克、豆包、DeepSeek、元宝、Talkie 新五小龙崛起|AI产品榜
2025年3月的AI产品榜·应用榜(APP)由多家知名机构联合发布,涵盖了全球和国内的多个榜单,包括月活跃用户(MAU)总榜、增速榜、降速榜以及日均时长榜。榜单...