哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

来源:乐集发布时间：2025-09-09 11:17:10

AI 搜索工具在美国很火，哥大更高几乎四分之一的最新美国人都表示他们已经用 AI 来取代了传统的搜索引擎。

然而在享受便捷的调研多款达付同时，也潜藏着诸多问题。搜索例如，引用AI 会直接引用网络上原始文章的错误越南交换生艳照流出内容，但这些内容是率高否符合指令要求，却是费版一件极为不确定的事情。

哥伦比亚大学数字新闻研究中心（Tow Center for Digital Journalism）近期就针对 AI 搜索引用内容的本错正确率问题展开了研究，他们分别测试了包括 ChatGPT Search、误率Perplexity、哥大更高Perplexity Pro、最新Gemini、调研多款达付DeepSeek Search、搜索Grok-2 Search、引用Grok-3 Search 和 Copilot 在内的 8 款 AI 搜索工具。

最终发现，这些 AI 搜索工具在引用新闻方面表现非常不佳，出错比例甚至高达 60%。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

AI 常常自信且坚定得给出错误答案

Tow 数字新闻中心基于之前对 GPT 的研究，又对 8 款具有实时搜索功能的生成式搜索工具进行了测试，以评估它们准确检索和引用新闻内容的能力，以及它们在无法做到时的表现。

经研究发现：

AI 搜索在无法准确回答问题时，通常不会拒绝回答，而是提供错误或推测性的答案。

付费 AI 搜索比免费版本更自信地提供错误答案。日本移民妻子视频

多个 AI 搜索似乎绕过了机器人排除协议（Robot Exclusion Protocol）的设置。

生成式搜索工具编造链接，并引用文章的转载或复制版本。

与新闻来源的内容授权协议并不能保证 AI 搜索回答中的准确引用。

他们的发现与之前的研究一致，证明他们的观察不仅仅是 ChatGPT 的问题，而是他们测试的所有主流生成式搜索工具中普遍存在的现象。

除此之外，团队还公布了他们的实验方法论：

首先，他们从每家出版商中随机选择了 10 篇文章，然后手动从这些文章中选取直接摘录内容用于研究人员的查询。在向每个 AI 提供选定的摘录内容后，研究要求其识别相应文章的标题、原始出版商、发布日期和URL。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

后续团队特意选择了那些如果粘贴到传统 Google 搜索中，能在前 3 条结果中返回原始来源的摘录内容，然后总共运行了 1600 次查询（20家出版商 × 10篇文章 × 8个 AI），并根据是否正确检索到文章、是否正确识别出版商、是否正确提供URL三个属性手动评估了 AI 的回答。

并且根据这些标准，将每个回答都标记为以下标签之一：

正确：所有三个属性均正确。

正确但不完整：部分属性正确，但回答缺少信息。

部分错误：部分属性正确，而其他属性错误。

完全错误：所有三个属性均错误和/或缺失。

未提供：未提供任何信息。

爬虫被阻止：出版商在其robots.txt文件中禁止了聊天机器人的爬虫访问。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

然而最后的结果却令人大跌眼镜，实验表明，AI 搜索经常无法检索到正确的文章。它们在所有查询中提供了超过60% 的错误答案。并且不同平台的错误率还有所不同，Perplexity 的错误率为 37%，而 Grok 3 的错误率则高得多，达到了 94%，DeepSeek 的错误率则在 58% 左右。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

值得一提的是，研究人员测试的 AI 都以十分自信的给出了错误答案，它们很少使用“看起来”、“可能”、“或许”这种有限定性的词语，或者通过“我无法找到确切文章”等语句承认知识空白。

例如，ChatGPT 错误识别了134篇文章，但在其 200 次回答中仅有 15 次表现出缺乏信心，但从未拒绝提供答案。除了 Copilot（它拒绝回答的问题比回答的更多）之外，所有工具都更倾向于提供错误答案，而不是承认自身的局限性。

除此之外，经过研究，团队发现付费版本的错误率竟然更高。

像 Perplexity Pro（20美元/月）或 Grok 3（40美元/月）这样的付费模型，凭借着更高的成本和他们自己声称的计算优势，被人们理所当然的认为会比免费版本更值得信赖。

然而，尽管付费的 AI 比对应的免费版本回答了更多的内容，但同时它们的错误率也更高了。这种矛盾的现象主要是因为它们宁愿提供错误的答案，也不会直接拒绝回答。

它们倾向于提供明确但错误的答案，而不是直接拒绝回答问题。付费客户期望得到更优质、准确的支持，然而这种权威的语气和错误答案，无疑给客户带来了极大的困扰。

爬虫乱象，出版商权益被侵犯

在本次研究中测试到的 8 款 AI 搜索工具中，ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已经公开了各自的爬虫程序名称，而 Grok 2 和 Grok 3 则尚未公开。

团队原本希望 AI 搜索应能正确查询其爬虫程序可访问的网站，并拒绝已屏蔽其内容访问权限的网站，但事实情况却并非如此。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

特别是 ChatGPT、Perplexity 和 Perplexity Pro，它们时而拒绝或错误地回答允许其访问的网站，时而又正确地回答那些因爬虫受限而无法获取的信息。其中 Perplexity Pro 的表现最差，在测试的 90 篇文章中，它正确的识别出了近三分之一它没有权限访问的内容。

尽管《国家地理》已经禁止了 Perplexity 的爬虫程序，但它仍识别出了 10 篇付费文章的内容。然而值得一提的是，《国家地理》和 Perplexity 并没有合作关系，Perplexity 可能通过其他途径获取了受限内容。

这不禁让人感到怀疑，Perplexity 所谓的“尊重robots.txt指令”只是一句空谈。

同样，《Press Gazette》本月报道称，尽管《纽约时报》禁止了 Perplexity 的爬虫程序，但它依旧是 1 月被 Perplexity 引用最多的网站，访问量高达 14.6 万次。

与其他聊天机器人相比，ChatGPT 回答被禁止爬虫访问的文章相关问题的次数较少，但总体而言，它更倾向于提供错误答案而非拒绝回答。

除了以上这些，在公开了爬虫程序的 AI 搜索应用中，Copilot 是唯一一个没有被任何出版商禁止爬虫程序的，这也就意味着它可以访问查询所有的内容，但它却常常拒绝回答，拥有着最高的拒答率。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

另一方面，谷歌创建了其 Google-Extended 爬虫，以便出版商可以选择阻止 Gemini 的爬虫，从而不会作用其内容在谷歌搜索中的展示。在研究人员测试的 20 家出版商中，有 10 家允许其访问，但 Gemini 只给出过一次正确答案。

除此之外，在面对政治相关的内容时，即便被允许访问，Gemini 也会选择不回答。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

尽管机器人排除协议（Robot Exclusion Protocol）并不具有法律约束力，但它一个被广泛接受的用于明确网站可爬取范围的标准，忽视它就相当于剥夺了出版商决定其内容是否被纳入搜索或用作AI模型训练信息的权利。

虽然允许网络爬虫可能会增加其内容在 AI 搜索输出中的整体可见性，但出版商可能有各种理由不希望爬虫访问其内容，比如不希望付费内容被直接看到，或是内容的主旨大意在 AI 生成的摘要中被断章取义，歪曲理解。

新闻媒体联盟主席 Danielle Coffey 在去年6月给出版商的一封信中写道：“如果无法阻止大规模的信息爬取，我们无法将有价值的内容变现，也无法支付记者的薪酬。这将对行业造成严重损害”

AI 搜索经常无法链接回原始来源

AI 搜索的输出通常会引用外部来源以证明其答案的权威性，引用来源咖位越大，在人们心中信息的可信度就越强。这意味着出版商的可信度常被用来提升 AI 搜索的可信赖度。

根据路透社的报道，即使是鼓励客户从 X 获取实时更新的 Grok，引用的主要内容依旧来源于传统的新闻机构。

例如，在 BBC 新闻最近关于 AI 助手如何呈现其内容的报告中，作者写道：“当 AI 助手引用像 BBC 这样值得信赖的品牌作为来源时，受众更有可能信任答案——即使它是错误的。”

所以，当 AI 搜索出错时，它们不仅损害了自己的声誉，还损害了它们依赖以获取合法性的出版商的声誉。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

然而，即使 AI 搜索正确识别了文章，也经常未能正确链接到原始来源。这就带来了两个问题：那些希望在搜索结果中获得可见性的出版商未能如愿，而那些希望退出的出版商的内容却违背其意愿仍然可见。

更多时候， AI 搜索常常引导客户去访问各大平台上的文章转载版本，而不是原始来源，即使出版商已经与 AI 公司有授权协议。例如，尽管 Perplexity Pro 与《德克萨斯论坛报》有合作关系，但在 10 次查询中，仍有 3 次引用了非官方的版本，这种倾向剥夺了原始来源潜在的推荐流量。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

相反，对于那些不希望内容被爬虫程序抓取的文章来说，未经授权的副本和非官方版本更是让他们头疼不已。

例如，尽管《今日美国》已经阻止了 ChatGPT 的爬虫访问，但 GPT 仍然引用了 Yahoo News 转载的其他文章版本。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

与此同时，生成式搜索工具编造 URL 的倾向也会作用客户验证信息来源的能力。例如，Grok 2 更加倾向于链接到出版机构的主页，而不是具体文章。

而 Gemini 和 Grok 3 超过一半的回答引用了编造或失效的 URL，严重作用了客户体验。在研究人员测试的200个 Grok 3 的提示中，有 154次引用指向了错误页面。即使 Grok 正确识别了文章，但它也经常链接到一个编造的URL。虽然这个问题并非 Grok 3 和 Gemini 独有，但在其他的 AI 搜索中，这种现象出现的频率明显要低很多。

《时代》杂志的首席运营官 Mark Howard 向研究团队强调：“我们的品牌如何被呈现、在何时何地出现、以及我们如何出现和在哪里出现的透明度，以及 AI 在我们的平台上推动的参与度，都至关关键。”

尽管点击流量目前仅占出版商整体推荐流量的一小部分，但 AI 搜索工具的推荐流量在过去一年中显示出适度增长。正如《新闻公报》的 Bron Maher 所说：“ AI 搜索工具新闻发布者陷入了困境，他们呕心沥血的创作出能够在ChatGPT 等平台上展示的内容，却无法通过流量和广告获得收益。长此以往，新闻行业将会受到作用，最终导致信息质量和多样性下降。”

授权协议不意味着被准确引用

在研究人员测试的公司中，OpenAI 和Perplexity 对与新闻出版商建立正式关系表现出了最大的兴趣。今年 2 月，OpenAI 分别与 Schibsted 和《卫报》媒体集团达成了第 16 和第 17 项新闻内容授权协议。同样，去年 Perplexity 推出了自己的“出版商计划”，旨在“促进共同成功”，其中包括与参与出版商的收入分成安排。

AI 公司与出版商之间的协议通常涉及建立由合同协议和工艺集成运营的内容管道。这些安排通常为 AI 公司提供直接访问出版商内容的权限，从而消除了网站爬取的需求。这种协议可能会让人期待，与合作伙伴出版商内容相关的客户查询会产生更准确的结果。然而，在 2025 年 2 月进行的测试中，研究人员并未观察到这一点。至少目前还没有。

哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

雷峰网(公众号：雷峰网)观察到，在与合作伙伴出版商相关的查询回答中，准确性差异很大。

例如，《时代》杂志与 OpenAI 和 Perplexity 都有协议，尽管这些公司相关的模型并未 100% 准确地识别其内容，但它仍然是研究人员信息集中被识别最准确的出版商之一。

另一方面，《旧金山纪事报》允许 OpenAI 的搜索爬虫访问，并且是 Hearst 与该公司“战略内容合作伙伴关系”的一部分，但 ChatGPT 仅正确识别了研究人员分享的该出版商 10 段摘录中的 1 段。

即使在这唯一一次正确识别文章的情况下，AI 搜索工具正确命名了出版商，但未能提供 URL，这也说明这些 AI 公司并未承诺达到 100% 的准确性。

参考链接：

https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

返回资讯首页 >>

风台谈

更多 >

商务部：将于9月出台扩大服务消费的若干政策措施
更新：2025-09-09 11:11
泰媒称泰军占领两处寺庙柬埔寨国防部否认
更新：2025-09-09 10:59
20多只朱鹮现身陕西汉阴觅食嬉戏很治愈
更新：2025-09-09 10:38
港片狠人上线《扫毒风暴》！毒枭K哥，居然是铜锣湾浩南和加钱哥
更新：2025-09-09 09:19

闻讯

更多 >

杨幂宋佳，虞书欣，赵露思，于正林心如，辱骂粉丝的前选秀男，锤爷回复爆料贴
1：杨幂当宋佳接班人？这次杨幂出席活动热搜出现了“地母”的评价这头衔与她的新造型，以及近期转型作品相关），同时她还被评价为“宋佳接班人”。其实扯上小宋佳的原因很简单，因为宋佳之前就被夸“地母系”意思是 ...
北京24小时平均降水量55.3毫米，已达暴雨量级
来源：北京时间北京降雨仍在持续。据统计，从7月24日8时至25日8时，全市平均降水量55.3毫米，为暴雨量级；城区平均41毫米，达到大雨量级；东北部79.8毫米，东南部70.4毫米，西南部48.6毫米 ...
吴谦少将，新职务明确
驻埃及使馆举办庆祝建军98周年暨国防武官到任招待会7月24日，中国驻埃及使馆举办庆祝中国人民解放军建军98周年暨国防武官到任招待会。廖力强大使出席并向中外来宾介绍新任国防武官吴谦少将。埃及国防部长代表 ...
张碧晨汪苏泷撕破脸！女方痛失《年轮》演唱权，《人民日报》发声
谁能想到，因为一名网红的几句话，2名知名歌手撕破脸了。近段时间，千万粉丝网红“旺仔小乔”深陷舆论漩涡之中，而导火索是她要开一场演唱会，网友发现她的这场演唱会有三大奇特之处。第一处，整个演唱会“旺仔小乔 ...
二字弟弟分手了？于正封杀新人？童瑶忙应酬？毕雯珺新戏水？姨太问答
小仙女们，晚上好！烧脑时间开始，交白卷的小仙女们，可以围观一下评论啊，真相帝往往就隐藏在其中！二字弟弟选择跟小伙伴们不一样的发展路线，可是喜欢跟天赋是两码事。他喜欢归喜欢，但天赋显然没有很明显。嘴上说 ...
780元票价被炒至1万元，易烊千玺演唱会门票遭高价倒卖
虽然购票采取了强实名制，但歌手易烊千玺2025礐嶨演唱会门票仍然被炒至万元。7月25日，界面新闻在闲鱼发现，原本1800元的门票被炒至3000元，1480元的门票被炒至9999元，780元的门票更是被 ...
泰媒称泰军占领两处寺庙柬埔寨国防部否认
△资料图当地时间7月25日，柬埔寨国防部发言人玛丽淑洁达表示，《泰国民族报》关于泰国军方占领柏威夏寺和高锡克寺的新闻报道是虚假消息，直到现在，这两处寺庙仍然在柬埔寨军队控制之下。泰国方面对此暂无回应。 ...
易烊千玺演唱会300万人抢7000张票专家：涉及抢票机制问题｜宅男财经
【宅男财经｜专家面对面】易烊千玺2025演唱会“礐嶨”上海站于7月24日11:28正式开启预售。11时33分，易烊千玺工作室发文称，演唱会预售门票已全部售罄。大麦网作为官方指定购票平台，显示初始可售门 ...
社保重大改革，要把就业放第一
来源：中国新闻周刊最高人民法院审判委员会第1942次会议通过的《关于审理劳动争议案件适用法律问题的解释二）》下称“司法解释”），将于9月1日正式实施。其中，第十九条的内容涉及社会保险参保的条件和要求， ...
00小花，怎么不算人均母胎美人呢？
美得一跳又一跳！不知不觉间，00花们已经出落成大姑娘了。潜力无限的她们，谁能扛起未来内娱的大旗呢？出生于2002年的赵今麦，从六岁就开始上表演班，算是一枚“老戏骨”了。近些年出圈的作品也不少，继正午出 ...
步惊云：一场春梦总是做不完
♪ 你如此特别，我又怎会失望 ♫文 | 伊姐周桂伊）最近，脱口秀演员步惊云杀疯了。她开篇就说自己出轨了，台下一片死寂。“在梦里。”她紧接着说。然后，她接的那句意味深长：“感觉我刚要说我杀人了，你们 ...
同省同名同姓“蔡光辉”，先后双双落马
据贵州黔南州纪委监委7月25日消息：黔南州贵定县政协党组成员、副主席蔡光辉涉嫌严重违纪违法，目前正接受黔南州纪委监委纪律审查和监察调查。贵定县政协副主席蔡光辉资料图）公开简历显示，蔡光辉，男，汉族，湖 ...