标签:大模型

2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了

微调超大参数模型的成本门槛已被显著降低,仅需2-4张消费级显卡即可在本地完成对DeepSeek 671B或Kimi K2 1TB等万亿级参数模型的微调。这一突破性进展源于KTra...

MiniMax和Kimi为了“注意力”,隔空交手

MiniMax和月之暗面在大模型技术路线上展现出截然不同的选择,引发了行业对注意力机制效率与性能平衡的深入探讨。MiniMax在M2模型中回归Full Attention架构,...

成功率100%!中科院发现用善意迷惑AI,能让它作恶,AI也经受不住糖衣毒药的攻击

上海工程科技大学和中国科学院计算技术研究所的研究揭示了大型语言模型(LLM)安全防御机制中存在的一种名为防御阈值衰减(DTD)的现象。研究发现,随着模型...

从 CIPS & CLM 迈进:中国大模型的智能跃迁

人工智能正以前所未有的速度重塑人类社会的运行逻辑,从语言模型掀起的认知革命到多模态、具身智能的崛起,标志着AI进入“智能共生”的新时代。在这一背景下,...

独家丨MiniMax 高级研究总监钟怡然已于半年前离职

钟怡然博士作为MiniMax前高级研究总监,其学术与产业界成就备受瞩目。他毕业于澳大利亚国立大学,师从李宏东教授与Richard Hartley院士,累计发表40余篇顶级...

AI 六小龙近况:零一万物迎来三位新高管,李开复提出“一把手工程 ”

零一万物近期进行了重要高管团队调整,前百度智能云中国区副总经理沈鹏飞以联合创始人身份加入,将统筹国内ToB、ToG业务拓展与销售体系。同时任命赵斌强和宁...

AI Coding 赛道,快手搅局

快手正式进军AI编程赛道,发布KAT-Coder系列模型及配套开发工具。该系列包含闭源旗舰模型KAT-Coder和开源模型KAT-Dev,其中32B参数的KAT-Dev已在本月初亮相。...

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

苹果公司在开放研究领域取得突破性进展,发布了Pico-Banana-400K数据集,这是视觉编辑领域首个基于真实图像的大规模开放数据集。该数据集包含40万张图像,通...

喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好

德克萨斯 A&M 大学、德克萨斯大学奥斯汀分校和普渡大学的研究团队通过实验证实,大语言模型(LLM)长期接触低质量网络内容会导致认知能力显著下降,这种现象...

DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了

DeepSeek团队推出的DeepSeek-OCR模型通过视觉token压缩技术实现了文本处理效率的突破性提升。该模型将1000字文本压缩为100个视觉token,在保持97%精度的同时...
1 2 3 65