AI搜索风靡，但高达60%引用出错！付费版甚至更糟

1,484 0 0

文章摘要

近四分之一的美国人已经用AI搜索工具取代了传统搜索引擎，然而最新研究发现，这些工具在引用新闻时错误率高达60%。研究对比了8款具有实时搜索功能的AI工具，发现它们在识别文章标题、原始出版商、发布日期和网址时表现不佳。实验共进行了1600次提问，结果显示超过60%的回复存在错误，不同平台的错误率差异明显，Perplexity的错误率为37%，而Grok 3更是高达94%。AI搜索工具往往以自信的语气给出错误答案，很少使用不确定的词语或承认知识缺口。例如，ChatGPT在200次回复中错误识别了134篇文章，仅有15次表现出缺乏自信，并且从未拒绝提供答案。

令人惊讶的是，付费模型的表现似乎更糟糕。Grok-3 Search和Perplexity Pro比免费版本更频繁地给出自信但错误的答案。这些付费版本应凭借更高的成本和计算优势提供更可靠的服务，但实际测试结果却恰恰相反。付费用户期望得到更优质、准确的服务，然而这种权威的语气和错误答案，无疑给用户带来了极大的困扰。

在爬虫方面，ChatGPT、Perplexity及Pro版本、Copilot和Gemini公开了各自爬虫程序的名称，给了出版商屏蔽的权利，但实际情况并非如此。Perplexity Pro在无权访问的90篇文章中，竟然正确识别出了近三分之一的内容，尽管《国家地理》已禁止其爬虫程序访问。这不禁让人怀疑，Perplexity所谓的「尊重robots.txt指令」只是一句空谈。开发者Robb Knight和《连线》杂志去年就报道过它无视「机器人排除协议」的证据。

AI搜索工具在引用新闻时经常无法链接回原始来源，这剥夺了原始来源的潜在流量，破坏了新闻传播的正常生态。生成式搜索工具捏造网址的倾向，给核实信息来源造成极大的困扰。例如，Grok 3测试的200个提示中，有154个引用的网址指向了错误页面。尽管目前在总推荐流量中的占比不大，在过去一年里，来自AI搜索工具的流量有了一定程度的增长。

不少AI公司都在积极和新闻出版商套近乎，但授权协议并不意味着准确引用。研究人员在2月做了个测试，发现情况不太妙。例如，《时代周刊》和OpenAI、Perplexity都有合作，但没有一个模型能做到100%准确识别。《旧金山纪事报》允许OpenAI的搜索爬虫访问，可在10篇文章摘录里，ChatGPT只正确识别出了1篇，还连网址都没给出来。《时代周刊》的Howard认为，「今天是这些产品最糟糕的时刻」，以后肯定会越来越好。