标签：真实性评估

史上最严“中文真实性评估”：OpenAI o1第1豆包第2，其它全部不及格

淘宝天猫集团的研究者们最近提出了中文简短问答（Chinese SimpleQA），这是首个全面的中文基准，旨在评估语言模型回答简短问题的真实性能力。该基准具有中文...

AIGC动态

10个月前