大模型

LLM,VLM,模型

开发者,找找找丨千万粉丝女子电竞第一人同游GDC(限量粉丝福利)

2025全球开发者先锋大会宣布电竞行业标志性人物韩懿莹(Miss)将作为嘉宾出席,引发业界广泛关注。作为中国首位女子电竞世界冠军,Miss在职业生涯中斩获7项国...

高盛:DeepSeek等中国大模型,加速AI对全球GPD贡献

高盛发布的研究报告指出,中国企业在生成式人工智能领域的技术突破可能加速全球AI应用进程,并对经济增长产生深远影响。以深度求索(DeepSeek)为代表的中国...

钛媒体AGI独家|MiniMax副总裁魏伟离职,曾任腾讯云副总裁

中国AI大模型独角兽企业MiniMax(稀宇科技)合伙人、副总裁魏伟近期确认离职。公司回应称,国内B端业务将进入新阶段,由其他负责人接任,并强调技术能力提升...

梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...

DeepSeek满血微调秘籍来了,全网首发打破低价内卷!解锁升级版全家桶

Colossal-AI近期发布了开源大模型后训练工具箱,旨在帮助开发者通过低成本方式对DeepSeek V3/R1等大规模模型进行监督微调与强化学习优化。该工具箱支持高达67...

DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍

DeepSeek V3/R1等大模型在开源社区广泛应用的背景下,如何通过后训练技术实现低成本、高质量的私有模型定制成为行业焦点。Colossal-AI推出的开源大模型后训练...

Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力

OpenAI推出并开源了全新基准测试SWE-Lancer,旨在通过真实软件工程任务评估大模型的编码能力。该基准包含来自自由职业平台Upwork的1,488个任务,总价值达100...

发论文亲自上?创业十多年,DeepSeek梁文锋的“技术男”属性从没改变

DeepSeek团队近日发布新论文,提出名为Native Sparse Attention(NSA)的新型注意力机制。该机制通过动态分层稀疏策略,结合粗粒度标记压缩与细粒度标记选择...

最大参数 300 亿!阶跃星辰与吉利联合开源两款多模态大模型

阶跃星辰与吉利汽车集团联合宣布,将Step系列多模态大模型向全球开发者开源。此次开源包含参数量达300亿的Step-Video-T2V视频生成模型,以及产品级开源语音交...

DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此

Colossal-AI团队近期推出开源大模型后训练工具箱,为开发者提供低成本构建私有模型的解决方案。该工具箱支持对DeepSeek-V3/R1-671B等大模型进行全流程优化,...
1 11 12 13 14 15 500