标签:大语言模型
超越英伟达!字节跳动MegaScale如何实现大规模GPU的高效利用?
在2024年2月,字帖跳动发布了一篇关于大语言模型训练框架的论文《MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs》。MegaScale...
数量即力量!腾讯揭秘:Agent数量越多,大语言模型效果越好
本文介绍了腾讯研究者们在大语言模型(LLM)的可拓展性(scaling property)方面的新发现。研究者们通过简单的采样投票方法,证明了LLM的性能会随着实例化age...
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
摘要总结:随着大语言模型(LLMs)的快速发展,如何确保它们与人类价值观对齐,避免社会负面影响成为一个重要议题。本文介绍了上海交通大学和上海人工智能实...
英伟达发了个有点弱的端侧模型,却想喊话大家举手投降
英伟达在2024年推出了Chat with RTX,这是一个本地部署的大语言模型工具,允许用户与模型进行文本、PDF、Word文档等多种格式内容的交互。尽管在中文交互方面...
OpenAI推出“Meta-Prompting”,显著提升GPT-4等模型内容准确性
本文介绍了一个名为Meta-ProMetating(简称“Meta”)的创新大模型增强框架,由OpenAI和斯坦福大学的研究人员共同推出。Meta旨在提升GPT-4、PaLM和LLaMa等大语...
200万上下文,超谷歌 Gemini 1.5!微软开源LongRoPE
文章主要介绍了微软研究推出的LongRoPE框架,该框架成功地将大语言模型的上下文扩展至200万,超过了谷歌Gemini 1.5的100万token上限。LongRoPE通过利用位置嵌...
Sora物理悖谬的几何解释
Sora作为一个视频生成模型,在龙年伊始引起了广泛关注。它声称能够模拟世界,但存在一些技术缺陷。本文从现代数学的角度,特别是整体微分几何领域,分析了Sor...
Stable Diffusion 3来啦!提示文本理解更好,图像质量更强
本文介绍了专注于AIGC领域的专业社区,关注大语言模型(LLM)的发展和应用落地。2月23日,stability.ai推出了Stable Diffusion 3,该版本在多个方面进行了增...
为什么号称模拟世界的Sora,处理不好一些简单的物理规律?
本文讨论了AIGC领域的专业社区,特别是关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地。文章以Sora视频生成模型为例,探讨了...
谷歌掀桌子!开源Gemma:可商用,性能超过Llama 2!
2月22日,谷歌宣布开源了大语言模型Gemma,该模型与谷歌最新发布的Gemini使用相同架构,提供20亿和70亿两种参数版本。Gemma在多个主流测试平台中表现出色,尤...