三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，Gemini 用词最少

来源:风台看发布时间：2025-09-09 17:55:23

近日，幻觉智利大学 CIAE 教育研究所的大模敌研究员 Roberto Araya 进行了 4 组对照实验：提供相同的提示词，让 Gemini 2.0 Flash、型巨ChatGPT o3-mini、头比DeepSeek R1 进行推理分析，拼思研究三个模型在应对幻觉问题上的用词深圳高中偷拍视频体验性能对比。

其研究发现：ChatGPT 03-mini 在应对大模型幻觉问题上占有绝对优势，最少能够灵活切换不同的幻觉策略进行思考推理。

相比之下，大模敌DeepSeek R1 和 Gemini 2.0 Flash 虽然能够尝试使用策略，型巨但表现了出对这些策略的头比抗拒，且推理过程存在错误或混乱。拼思

三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，用词Gemini 用词最少

在面对同一个问题时，三个思考模型在进行推理的幻觉过程中也展现出了较大的差异：

其中，Gemini 2.0 Flash 的思维链用词最少，ChatGPT o3-mini 是其约 3 到 10 倍，DeepSeek R1 是其大约 12 到 36 倍。而用词更多，往往意味着推理的算力成本更高。

尽管 Gemini 2.0 Flash 用词更少，其推理过程中策略使用方法与推理结论效果却不是郑州师范大学泄露下载最佳——在四个策略实验中，ChatGPT o3-mini 的推理过程与结论正确率最高，DeepSeek R1 虽然推理过程更冗长、但结论正确率远高于 Gemini。

ChatGPT-o3 mini、Gemini 2.0 Flash 与 DeepSeek R1 是当前全球综合能力最强的几个基础模型，他们在问题思考与推理上的不足也代表了当前大模型工艺距离 AGI 终点还有很长的路要走。

贝叶斯推理视角下的大模型推理

为了得出较为准确的结论，研究团队设计了一个适合小学生兴趣与认知水平的贝叶斯推理问题，并选择了谎言检测这一主题。大模型需要运用自身的推理能力来识别谎言并得到正确答案。

在第一个实验中，研究人员测试了模型在无提示的情况下解决一个贝叶斯推理问题的能力。

他们先是提出了一个适合小学生的谎言检测问题，描述了一个包含多个对象（如谷仓、羊、猪、猫、书等）的乡村风景场景。问题的核心线索包括：猫声称卡片不在它旁边，猪表示 90% 的时间卡片都在猫旁边，以及猫在特定情况下说谎的概率等。模型需要根据这些线索判断卡片最可能隐藏在哪本书中。

实验中，研究人员没有提供任何关于使用自然频率、整体对象或具身启发式方法的提示，而是观察 LLMs 是否能够自主使用这些生态策略来解决问题。

而结果表明，测试的三种模型均未能自主使用这些策略。

Gemini 2.0 Flash 在第一次尝试中用了 255 个词得出结论，第二次尝试用了389个词。在第一次尝试中，Gemini 的推理过程主要依赖于先验概率，得出的结论是正确的，但推理过程不正确。在第二次尝试中 Gemini 则是直接给出了错误的结论。

而 ChatGPT 用了 2039 个词，耗时32秒。它的推理过程看似合理，但过程存在逻辑漏洞，未能正确整合所有线索。

DeepSeek R1 的推理过程最为复杂，用了 2876 个词，在经过多次自我反思和检查后，最终得出了正确结论，但在推理过程中犹豫不决，且未能清晰解释如何计算概率。

三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，Gemini 用词最少

而第二个实验则是直接在上一个实验的基础上，增加了一个引导提示，建议模型使用 Gerd Gigerenzer 提出的“自然频率”策略来解决问题。

在这个实验中，只有 ChatGPT o3-mini 成功地将概率转换为自然频率。它用了 1107 个词，并且将推理过程分成了两部分。第一部分使用贝叶斯公式得出正确结论，第二部分使用自然频率再次验证，并得出了正确结论。

相比之下，Gemini 2.0 Flash 用了 204 个词，虽然尝试了自然频率策略，但其推理过程并不一致，仍然依赖于百分比进行部分计算，最终得出了错误的推理逻辑。

DeepSeek R1的表现则更为复杂，共用了 7344 个词，最终虽然得出了正确的结论，但其推理过程充满了犹豫和反思，缺乏清晰性和一致性。

三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，Gemini 用词最少

紧接着，实验三与实验二的内容相同，但研究人员在最后增加了一个条件：且明确地以塑料块的具体形式表示每个案例，并将问题简化为计数块。

最终的结果显示，实验中只有 ChatGPT o3-mini 成功地将概率转换为自然频率，共用了 1141 个词，并用塑料块来表示每个案例，从而得出了正确结论。

而 Gemini 2.0 Flash 用了 351 个词，虽然尝试了整体对象策略，但其推理过程并不一致，仍然依赖于百分比进行部分计算，导致其推理逻辑存在错误。

而 DeepSeek R1 用了 5504 个词，而且在推理过程中频繁地在自然频率和百分比之间切换，结论虽然正确，但过程过于冗长。

三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，Gemini 用词最少

最后一个实验则是在实验三的基础上，增加一句话：“描述你如何通过计数块来解决问题。以一种适合12岁学生的教学方式，使用两种颜色的块来解释你的推理。”

最终 ChatGPT o3-mini 用了 1405 个词并成功地将概率转换为自然频率，并用塑料块来表示每个案例，同时正确地使用了着色策略得出了正确结论。

Gemini 2.0 Flash 用了 504 个词，虽然尝试了着色策略，但在推理过程中出现了错误，未能正确整合所有线索，结论正确但论证过程存在错误。

DeepSeek R1 的表现则更为复杂，用了 8457 个词，而且过程中多次出现混乱，最终在清洁版本中正确使用塑料块，但颜色标记错误。

最终，研究人员得出结论：

在实验中，三种模型在贝叶斯推理任务中的表现各有不同，并且所有模型在某些条件下都能得出正确结论，但在无提示条件下，它们的表现都不稳定。

其中，ChatGPT o3-mini 在提示条件下表现最为稳定，能够灵活切换推理方法，并正确使用自然频率进行推理。

相比之下，DeepSeek R1 虽然最终也能得出正确结论，但其推理过程冗长且混乱，多次进行自我检查和调整。

而 Gemini 2.0 Flash 虽然在提示条件下能够尝试使用生态有效策略，但其推理过程存在错误。

在策略使用方面，ChatGPT o3-mini 是唯一一个在提示条件下能够完全正确使用自然频率的模型。

而 DeepSeek R1 和 Gemini 2.0 Flash 虽然尝试使用具体物体和颜色标记，但未完全掌握这些方法的使用，表现出对生态有效策略的抗拒。

在过程复杂性方面，ChatGPT o3-mini 的推理过程较为简洁，能够直接使用自然频率得出结论。相反，DeepSeek R1 的推理过程最为冗长，而 Gemini 2.0 Flash 的推理过程较短，但存在错误。

三大模型巨头比拼思考“幻觉”：DeepSeek 不敌 ChatGPT，Gemini 用词最少

大模型的幻觉问题

从大模型的出现到普及，幻觉问题都是一个“顽疾”，不管工艺多么先进，模型总会有不靠谱的时候。

它一般指的是模型生成的内容与现实世界事实或客户输入不一致的现象。这种现象可以被视为模型的“胡说八道”。具体来说，大模型的幻觉可以分为事实性幻觉和忠实性幻觉两大类。

其中，事实性幻觉指的是模型生成的内容与可验证的现实世界事实不一致。例如，模型可能回答“保时捷借鉴了小米 SU7 的外观”，但事实却悄悄相反。而忠实性幻觉则是模型生成的内容与客户的指令或上下文不一致。例如，我们要求模型帮我们查询今天的天气，但模型却给了我们去年今日的天气新闻。

而大模型产生幻觉的原因主要可以归纳为几个方面：

信息源问题：训练信息中的错误信息、偏见以及过时或不完整的知识都会导致模型生成不准确的内容。

训练过程问题：模型在训练过程中可能会学习到不准确的模式和规律，尤其是在信息分布不均匀或信息质量不高的情况下。

推理过程问题：模型在生成内容时，可能会基于其学习到的模式进行“想象”或“创造”，而不是严格遵循输入信息。这种“想象”在某些情况下可能是合理的，但在其他情况下则可能导致错误。

为了减少幻觉问题，研究人员们也提供了多种策略，例如：提升训练信息的质量和多样性、引入先验知识和常识、增加模型的鲁棒性、优化模型架构和运算规则、结合人类评估和反馈等方法。

当然，雷峰网(公众号：雷峰网)认为幻觉并不代表着绝对的错误。

虽然幻觉有时候可能导致模型生成不准确或误导性的内容，但两者之间还是存在着一定的区别。

回答错误是输出与正确答案不符，可通过比较纠正，而幻觉是生成内容脱离实际输入或现实，是模型的“想象”，难以直接比较发现。两者之间可能有所关联，但评估模型时需综合考虑多种因素。

参考链接：https://arxiv.org/pdf/2503.15268

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

返回资讯首页 >>

爆台

更多 >

AI 颠覆的第一个职业是程序员？丨GAIR Live
更新：2025-09-09 17:52
多地官宣：音乐节可在现场领结婚证
更新：2025-09-09 16:26
爱奇艺举办第五届“金豪笔编剧之夜” 62位编剧20部作品获表彰
更新：2025-09-09 15:55
云南威信县黑龙村强降雨疑似致5人失联
更新：2025-09-09 15:10

趣站

更多 >

宣布重大收购预案开普云连续两日“20CM”涨停
每经记者吴泽鹏每经编辑文多8月25日，复牌的开普云SH688228，股价94.75元，市值63.97亿元）开盘即涨停。前一天晚间，开普云披露了重大资产购买暨关联交易预案，上市公司计划收购深圳市 ...
为涉黑母亲辩护的河南基层法官，涉嫌洗钱罪被刑拘
新京报讯记者刘思维）7月10日，为涉黑母亲辩护的南阳基层法官毕祺祺，因涉嫌洗钱罪被公安机关刑事拘留。今年3月，河南省南阳市镇平县人民法院法官毕祺祺在网络上以“我能否为母辩护，请法院给个说法”为题发布文 ...
一家五口被同村邻居杀害事发前两家曾因过道吵架
来源：扬子晚报#一家五口被杀前与邻居曾因过道吵架#【#当地回应一家五口被同村邻居杀害#：在对家属心理疏导】近日，有网友爆料称河北省邢台市隆尧县有一家五口被同村邻居残忍杀害。@扬子晚报记者联系到被害一 ...
最高50% 特朗普再宣称对8国加征关税
当地时间7月9日，美国总统特朗普在社交媒体上发布了致文莱、阿尔及利亚、摩尔多瓦、伊拉克、菲律宾、斯里兰卡、利比亚和巴西的信件。特朗普宣布对8国关税税率特朗普称，美国将自2025年8月1日起对菲律宾的产 ...
港交所陈翊庭：港交所将研究24小时交易机制
在港交所2025年中期业绩会议上，港交所集团行政总裁陈翊庭表示：“港交所在保持全球竞争力方面始终坚持战略性投入原则。港交所在资本开支方面不会吝啬，我们持续加大在信息平台优化、交易结算系统升级等方面的投 ...
警惕！“美企竟这样绕过禁令，偷拿中国关键矿物”
【文/观察者网柳白】面对中国依国际惯例执行的关键矿物管制，一些美西方买家叫苦不迭，甚至动起歪脑筋。路透社7月9日报道披露，为绕过中方管制，有美国买家通过第三国转运拿到了矿物。比如根据海关和航运记录， ...
国家增长改革委：我国建成超过10亿亩高标准农田
国务院新闻办今天举行首场“高质量完成‘十四五’规划”系列主题新闻发布会，国家增长改革委主任郑栅洁表示，“十四五”以来，我国的粮食、能源、产业、国防等保障基础进一步夯实。国家增长改革委主任郑栅洁表示，粮 ...
乌克兰声称已拘留两名中国公民外交部回应
财联社7月10日电，据环球时报，有记者提问称，乌克兰昨天表示已拘留两名中国公民，指控他们试图将导弹技术走私出境，请问中方对此有何评论？对此，发言人毛宁表示，我们还在核实了解有关情况，如果涉及中国公民， ...
最后冲刺！人身险产品切换倒计时
每经记者袁园每经编辑廖丹“再奋斗最后一周，加油！”周一8月25日）早上，保险代理人王明化名）发了一条朋友圈。他的一天从清晨开始，奔波于客户拜访和咨询之间，语调急切却充满干劲。和王明一样，成千上万 ...
中国第一艘第一次第一座彰显重大突破
来源：中国日报第一座中国空间站“天宫”全面建成运营，全球第一座第四代核电站石岛湾基地投入商业运行，“嫦娥六号”实现全球第一次月球背面无人采样返回，第一次按照国际通行适航标准研制的国产大飞机C919实现 ...
今日辟谣（2025年7月9日）
来源：中国互联网联合辟谣平台2025年7月9日辟谣“四川峨眉山人猴大战，猴王被当场击毙”系谣言详情：近日，有关“峨眉山人猴大战再次爆发，猴王当场被击毙”的消息在网络上传播，引发社会关注。经核实，该消 ...
美国洛杉矶一隧道坍塌 15人被困
美国加利福尼亚州洛杉矶市消防局9日说，该市威尔明顿地区当日发生一起隧道坍塌事故，造成15人被困。目前搜救人员无法与受困人员取得联系，隧道塌方似乎损毁了通信线路。搜救人员表示，坍塌点距离隧道唯一入口处约 ...