标签:开源模型

最强3B「小钢炮」,代码数据全公开!推理随意开关,128k超长上下文

Hugging Face最新推出的30亿参数模型SmolLM3,以其全面开源和卓越性能成为小模型领域的标杆。该模型支持128k长上下文处理,并在多语言任务中展现出色表现,同...

DeepSeek发布最新论文,5大杀手锏让大模型训练、推理暴涨

全球著名开源大模型平台DeepSeek发布了其最新开源模型V3的论文,重点探讨了在不牺牲性能的前提下,如何通过硬件架构和模型设计的创新突破硬件瓶颈。随着OpenA...

阿里通义 Qwen3 上线 ,开源大军再添一名猛将

阿里新一代通义千问开源模型 Qwen3 于4月29日正式上线,用户可通过通义App和网页版体验其强大的智能能力。Qwen3 包含8款不同尺寸的模型,均为全新的“混合推理...

Llama 4 详细评测:开源模型的全面倒退?

Meta最新发布的开源大模型Llama 4在技术社区引发了广泛争议。尽管其规格参数堪称“顶配开源”,包括两个混合专家(MoE)架构版本——Scout(109B总参数,17B活跃...

1000万上下文+2880亿参数的Llama4,却让DeepSeek们松了一口气

Meta于4月5日发布了Llama4系列开源模型,包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。这三种模型分别针对不同的使用需求,展示了Meta在人工智能...

HuggingFace上的热门开源模型,一半都来自中国了

在最新的HuggingFace热门模型榜单中,中国模型的占比超过了50%,包括QwQ-32B、HunyuanVideo-12V、DeepSeekR1等知名模型。这一现象不仅体现了中国在开源模型领...

智谱开源AI绘图CogView4,曾经的开源之光回来了。

近日,智谱与清华团队正式开源了AI绘图模型CogView4,成为首个支持中英文字直接生成的开源图像生成模型。该模型基于6B参数规模,支持最高2048像素分辨率的图...

DeepSeek开源打碎了谁的饭碗

DeepSeek的开源策略正在重塑中国AI产业生态,中腰部AI应用公司、芯片企业和硬件厂商成为首批受益者。53AI创始人杨芳贤透露,其半数存量客户已将基座模型切换...

国外权威认证!DeepSeek超150万模型,成最受欢迎开源大模型

Huggingface平台最新数据显示,中国开源大模型DeepSeek-R1以超过1万点赞量和1000万次下载量,成为该平台有史以来最受欢迎的开源模型。这一成绩仅用数周时间便...

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

阶跃星辰与清华大学联合发布的Open Reasoner Zero(ORZ)模型在强化学习训练方法上取得突破性进展。该研究采用极简主义方法,仅使用带有GAE的原版PPO算法和基...
1 2 3 4