文章摘要
【关 键 词】 OpenAI限制、Llama 3模型、潞晨云平台、模型微调、对话能力
OpenAI宣布自7月9日起,将不再对中国等不支持国家的用户提供API服务,这对国内开发者和企业来说是一个重大打击,意味着他们需要寻找新的解决方案。在这种情况下,Llama 3作为一个完全开源的模型,提供了一个很好的选择。用户可以根据自己的需求微调这个模型,实现独特的业务场景。
使用Llama 3之前,需要在Meta填写表格并签署协议,然后会被引导到GitHub地址下载模型。尽管下载700亿参数模型需要较长时间,但潞晨云平台已经完成了所有的下载和配置工作,提供了公开数据和配置好的推理和训练微调环境,用户无需担心代码库的依赖安装问题。
在潞晨云平台上,使用Llama 3 80亿参数的模型进行推理,只需单卡即可完成,而700亿参数的模型则需要8卡。通过选择A800显卡、潮汐计费方式以及必要的配置选项,可以快速创建并初始化机器。在实际测试中,使用单卡运行80亿参数模型进行推理,模型权重的初始化非常快捷,大约只需半分钟。
然而,在实际生成结果时,发现Llama 3 80亿参数模型的能力一般,生成的内容前后文不够严谨。此外,模型在没有给定prompt的情况下,两次生成了相同的开头,这引起了我们的好奇。通过查看ColossalAI的代码,我们发现之前使用的脚本采用了默认的prompt。更换为自定义文本提示后,虽然可以继续生成,但内容并没有达到预期的讲故事效果。
接下来,我们尝试体验了Meta-Llama-3-8B-Instruct模型的对话能力。根据Llama 3官网的对话模型指令格式,进行了测试。整体而言,Llama 3作为一个开源的大语言模型,为国内开发者和企业在面对OpenAI API服务限制的情况下,提供了一个可行的替代方案。尽管在实际使用中可能还存在一些不足之处,但通过不断的优化和调整,有望发挥出更大的潜力。
原文和模型
【原文链接】 阅读原文 [ 4800字 | 20分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★