标签:数据清洗

CLIP 后门样本检测:揭示网络数据集中的后门风险丨ICLR 2025

多模态模型的安全问题因后门投毒风险引发关注,尤其是CLIP模型在视觉-语言对齐任务中的广泛应用。研究表明,攻击者仅需对0.01%的训练数据投毒即可植入后门,...

240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

随着人工智能技术的快速发展,数据规模对模型性能的影响日益显著。Llama 3的研究揭示了在不改变模型架构的前提下,数据量从2万亿增加到15万亿可以显著提升模...