文章摘要
【关 键 词】 人工智能、Claude 3、化学任务、微调模型、SMolInstruct
Claude 3是一款人工智能模型,其在通用任务上的表现已经被全球公认为最强。
然而,对于特定的专业领域,比如化学,其表现如何却是一个未知数。
化学在药物发现和材料科学等领域发挥着至关重要的作用,但现有研究显示,大多数人工智能系统在化学任务上的性能令人沮丧。
为了解决这个问题,一支来自OSU的团队构建了一个专门针对化学任务指令微调的数据集,命名为SMolInstruct。
这个数据集涵盖了14种任务,包括名称转换、属性预测、分子描述、分子生成、正向合成和逆向合成等。
它包含了340万个不同的样本和160万个不同的分子,涵盖了各种大小、结构和性质的化合物,展示了广泛的化学知识覆盖范围。
该团队在SMolInstruct数据集上对四个开源LLM(Galactica、Llama 2、Code Llama和Mistral)进行微调,创建了一系列专门用于化学任务的LLM,称为LlaSMol。
结果显示,LlaSMol在所有任务上都显著优于现有的LLM,包括GPT-4。
例如,将SMILES转换为分子式的准确率达到94.5%,而GPT-4仅为16.4%;对于逆合成任务,准确率达到32.9%,而GPT-4仅为0%,并接近最先进的任务特定模型SOTA。
Claude 3一经推出,该团队便在SMolInstruct 该基准测试上对于Claude 3 Opus同样进行了实验。
虽然与LlaSMol还是有差距,但在大多数任务中,Claude 3的表现远远超过GPT-4。
虽然在其中的一个名称转换任务S2F中,也就是一个将用于表示分子结构的文本字符串转换为分子式去计算原子数量的任务,Claude 3要比GPT-4差得多,但大多数任务的大幅领先还是展现了Claude 3在专业领域学习能力上的优越性。
在SMolInstruct原论文的结尾,作者也表达了对在化学领域,LLM能够超越任务特定模型的期许和展望。
任务特定模型毕竟是基于固定的输入,它们被优化以执行其特定任务,通常在大小和复杂性上都较小,而且在跨知识共享的任务中很难有好的表现。
而LLM有更多的参数和模型结构,可以在学习中进化,也能快速适应新的需求。
不可否认的是,经过微调的LLM更多的在专业领域上赶超任务特定模型,目前非常依赖于微调指令的完整性、全面性、准确性。
但若以发展的眼光来比较两种模型,尤其是在我们已经感受到Claude 3可怕的成长速度之后。
可以预想到,作为通用模型来设计的LLM,会在专业领域逐渐爆发。
原文和模型
【原文链接】 阅读原文 [ 1118字 | 5分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★