标签：数据清洗

阿里达摩院开源多模态医学大模型—灵枢

大模型在医疗领域的应用面临三大主要难题：医疗知识覆盖不足、幻觉风险高以及推理能力欠缺。为了解决这些问题，阿里巴巴达摩院的研究团队开源了统一多模态医...

AIGC动态

2个月前

CLIP 后门样本检测：揭示网络数据集中的后门风险丨ICLR 2025

多模态模型的安全问题因后门投毒风险引发关注，尤其是CLIP模型在视觉-语言对齐任务中的广泛应用。研究表明，攻击者仅需对0.01%的训练数据投毒即可植入后门，...

AIGC动态

7个月前

240万亿巨量数据被洗出，足够训出18个GPT-4！全球23所机构联手，清洗秘籍公开

随着人工智能技术的快速发展，数据规模对模型性能的影响日益显著。Llama 3的研究揭示了在不改变模型架构的前提下，数据量从2万亿增加到15万亿可以显著提升模...

AIGC动态

1年前 (2024)