标签:模型微调
算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了
最近,一项名为“noise_step”的新技术由Will小哥提出,该技术允许模型在1.58-bit低精度下直接训练,无需反向传播或动量加速,从而大幅降低算力和存储消耗。这...
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
新智元报道指出,强化微调(RLF)技术可能在强化学习领域引发一场变革。Yann LeCun曾将智能比作蛋糕,其中无监督学习是主体,有监督学习是糖霜,而强化学习则...
52万张GPU集群塞进一个「盒子」?AI神器破解百模争霸困局!
在AI时代,算力成为关键资源,但获取算力面临挑战。OpenAI因微软提供算力速度慢而寻求其他供应商,国内企业则面临算力资源管理困难、模型微调复杂等问题。赛...
《Python机器学习》作者科普长文:从头构建类GPT文本分类器,代码开源
在Sebastian Raschka的长文中,他详细阐述了如何将预训练的大型语言模型(LLM)转化为文本分类器。文章首先强调了文本分类在商业应用中的重要性,如垃圾邮件...
专用于理解游戏场景的开源大模型-VideoGameBunny
加拿大阿尔伯塔的研究人员开发了一款名为VideoGameBunny(VGB)的大模型,旨在提升游戏开发领域的AI应用。VGB作为一款视觉AI助理,能够理解游戏环境并提供实...
我们如何在 1000 GPU 小时内做好 Open-Sora 微调
本文深入探讨了如何利用尖端技术提升视频生成质量,特别是通过微调开源模型来满足特定需求。作者介绍了Text2Video模型,它为开发者和内容创作者提供了新的创...
提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使
洛桑联邦理工学院的最新研究揭示了大型语言模型在安全措施上的一个新漏洞。研究发现,通过将请求中的时间设置为过去时态,可以显著提高对GPT-4o模型的攻击成...
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
佐治亚理工学院和英伟达的学者们提出了一种名为RankRAG的微调框架,旨在简化传统的RAG(Retrieval-Augmented Generation)流水线。RAG是一种在文本生成任务中...
OpenAI服务受限?别担心,来这里丝滑玩转700亿参数Llama3,还有100元券免费薅!
OpenAI宣布自7月9日起,将不再对中国等不支持国家的用户提供API服务,这对国内开发者和企业来说是一个重大打击,意味着他们需要寻找新的解决方案。在这种情况...
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
Stability AI最近推出了Stable LM 2 12B模型,这是其新模型系列的一个重要升级。该模型基于七种语言的2万亿Token进行训练,拥有120亿参数,性能在某些基准测...
1
2