标签:真实性评估

史上最严“中文真实性评估”:OpenAI o1第1豆包第2,其它全部不及格

淘宝天猫集团的研究者们最近提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,旨在评估语言模型回答简短问题的真实性能力。该基准具有中文...