{label:top}
首页 >> 风事谈> 正文

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

来源:风事谈发布时间:2025-09-09 17:46:19
浏览:9


最近谷歌发布的最i综 Gemini 格外引人注目,其号称是新研第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

报道显示,合不还需Gemini 的谷歌“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的努力“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的最i综上海医科大学曝光下载较量,美国卡内基梅隆大学近日展开了一项研究,新研深入探讨了谷歌 Gemini 的合不还需语言理解和生成能力,并将其与 OpenAI 的谷歌 GPT 系列作了对比,得到了有趣的努力结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究:Gemini 综合不敌 ChatGPT,最i综谷歌还需努力

论文地址:https://arxiv.org/pdf/2312.11444.pdf


一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的合不还需这项研究主要探讨了两个问题:

其一,对 OpenAI GPT 和 Google Gemini 模型的谷歌能力进行了第三方客观比较,并提供了可重现的努力代码和完全透明的结果;

其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个信息集进行了分析,包括推理、回答基于知识的问题、解决数学问题、西安高中偷拍视频攻略语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上,CMU 团队分析发现:

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)


二、大模型关键能力分析

在大模型的几项关键能力上,团队的具体研究结果如下:

知识图谱问答能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

推理能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

数学能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

代码生成能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。

不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

机器翻译能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。


雷峰网雷峰网(公众号:雷峰网)雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

看点

更多 >
  • 50%关税,正式生效!印度部分工厂“停工”
    更新:2025-09-09 17:29
  • 小刀帮男朋友养老家私生子
    更新:2025-09-09 17:15
  • 6人遇难矿企2024信用等级为三级(较差)
    更新:2025-09-09 15:11
  • 金正恩:“永志不忘中国人民志愿军烈士”
    更新:2025-09-09 15:07

热门文章

  • 中国月度用电量首破万亿大关
    中国月度用电量首破万亿大关

    中国月度用电量首破万亿大关

    全社会用电量7月历史性突破万亿千瓦时大关,这在全球也属首次。国家能源局今天对外发布了7月全社会用电量,达1.02万亿千瓦时,同比增长8.6%。比十年前翻了一番,相当于东盟国家全年的用电量。多轮高温天气 ...

  • 美英尽说马克龙,但似乎声调开始不同!
    美英尽说马克龙,但似乎声调开始不同!

    美英尽说马克龙,但似乎声调开始不同!

    但事情又必须一步步来。目前,法国“起跑”,英国跟上,欧洲向正确的方向前进,总是没错的!文 | 海上客法国总统马克龙正式宣布了——法国将于今年9月正式承认巴勒斯坦国!“我计划在今年9月于联合国大会期间正 ...

  • 新央企中国雅江集团,董事长、总经理亮相
    新央企中国雅江集团,董事长、总经理亮相

    新央企中国雅江集团,董事长、总经理亮相

    中国三峡集团网站消息,7月19日,中国三峡集团董事长、党组书记刘伟平在西藏林芝与中国雅江集团董事长、党组书记余兵,总经理、党组副书记王武斌座谈,双方就进一步深化合作,更好服务国家重大战略开展深入交流。 ...

  • 对比刀郎对降央卓玛的连环起诉,汪苏泷对张碧晨还是太心软了
    对比刀郎对降央卓玛的连环起诉,汪苏泷对张碧晨还是太心软了

    对比刀郎对降央卓玛的连环起诉,汪苏泷对张碧晨还是太心软了

    昔日好友反目成仇,娱乐圈版的升米恩斗米仇一直在轮番上演。其实汪苏泷与张碧晨关于歌曲《年轮》之间的纷争,完全可以参考刀郎与降央卓玛之间的处理方式。早在2006年,刀郎在创作歌曲期间听闻到一段真实的爱情故 ...

  • 演员李明德已刑满释放,经纪人报平安称一切都好,此前因酒后砸车被判有期徒刑6个月
    演员李明德已刑满释放,经纪人报平安称一切都好,此前因酒后砸车被判有期徒刑6个月

    演员李明德已刑满释放,经纪人报平安称一切都好,此前因酒后砸车被判有期徒刑6个月

    据纵览新闻,演员李明德酒后砸车被判6个月,近日已被释放出来。8月20日,李明德的经纪人曹泽豪报平安称:“一切都好,抱歉让你们担心了,也谢谢你们的关心,以后的路一起走。”此前2月13日,平安北京朝阳通报 ...

  • 泰国军方向26国发函:柬埔寨率先开火并袭击平民
    泰国军方向26国发函:柬埔寨率先开火并袭击平民

    泰国军方向26国发函:柬埔寨率先开火并袭击平民

    当地时间7月26日,泰国陆军情报局通过驻外武官渠道,向26个国家发出正式函件,称柬埔寨军队是率先发动攻击一方,柬方的攻击针对泰国平民、社区和医院,严重侵犯泰国主权。此次发函的对象包括美国、中国、俄罗斯 ...

  • 暑期档都上了!到底谁行?
    暑期档都上了!到底谁行?

    暑期档都上了!到底谁行?

    来源标题:暑期档都上了!到底谁行?2025年暑期档在经历前半程的平淡后,随着《长安的荔枝》《罗小黑战记2》等影片的上映而迎来票房高峰。据灯塔专业版数据,7月21日至23日,工作日大盘连续两日突破1亿元 ...

  • 吴清挂帅,中国资本市场“超级智囊团”来了
    吴清挂帅,中国资本市场“超级智囊团”来了

    吴清挂帅,中国资本市场“超级智囊团”来了

    7月26日,中国资本市场学会成立大会暨第一届第一次会员代表大会在上海召开。这标志着中国资本市场拥有了官方的、顶级的“思想库”和“智囊团”。中国证监会主席吴清出任学会理事会会长,这体现了国家对学会的高度 ...

风风报

更多 >
  • 老年人免费乘公交,撑不住了?
    老年人免费乘公交,撑不住了?

    来源:中国新闻周刊近日,吉林省德惠市发布的一则《免费老年卡错峰出行通知》引发了社会关注。该通知提到,因早晚高峰时间段公共交通拥挤,无法保证上学、通勤人群的刚性出行需求,计划自9月1日起对持有免费“老年 ...

  • 山西河津发生一起交通事故致6死8伤
    山西河津发生一起交通事故致6死8伤

    记者今天7月27日)从山西省河津市相关部门了解到,7月26日,河津市发生一起交通事故,造成6人死亡,8人受伤。7月26日13时55分许,在河津市鑫光大道樊村堡路口,一辆重型半挂牵引车与一辆小型面包车相 ...

  • 泰国军方向26国发函:柬埔寨率先开火并袭击平民
    泰国军方向26国发函:柬埔寨率先开火并袭击平民

    当地时间7月26日,泰国陆军情报局通过驻外武官渠道,向26个国家发出正式函件,称柬埔寨军队是率先发动攻击一方,柬方的攻击针对泰国平民、社区和医院,严重侵犯泰国主权。此次发函的对象包括美国、中国、俄罗斯 ...

  • 泰柬边境冲突已致泰国21人死亡
    泰柬边境冲突已致泰国21人死亡

    当地时间26日,根据泰国政府和军方的信息,泰柬边境冲突已导致21名泰国人死亡,其中包括13名平民和8名军人。柬埔寨和泰国24日在边境地区发生冲突,双方互相指责对方违反国际法。当地时间26日早,泰国与柬 ...

  • 1.9亿税收的县城,要花17亿重建?
    1.9亿税收的县城,要花17亿重建?

    来源:中国新闻周刊“村超”回来了。8月23日晚,2025年贵州“村超”全国赛总决赛在榕江县“村超”球场开赛。经过激烈角逐,广东肇庆金利诚峻足球队捧起首届“村超”全国赛总冠军奖杯。很难想象,就在两个月前 ...

  • 大量中国女性私密照在外网传播,亲历者发声:自己和闺蜜都曾被前男友偷拍
    大量中国女性私密照在外网传播,亲历者发声:自己和闺蜜都曾被前男友偷拍

    来源:大河报·豫视频近日,#10万人境外论坛疯传中国女性私密照#的话题冲上微博热搜。该话题引发广泛关注后,很多被偷拍者在社交媒体上说出了自己的类似遭遇。7月26日,M女士向大河报《看见》记者讲述了自己 ...

  • 美国密歇根州一超市发生伤人事件 至少11人被刺伤
    美国密歇根州一超市发生伤人事件 至少11人被刺伤

    当地时间7月26日,美国密歇根州特拉弗斯城一家超市发生一起伤人事件,造成至少11人被刺伤。一名嫌疑人已被拘留,案情细节仍在调查中。央视记者 吴汉婴) ...

  • 南京市江北新区管委会原副主任刘志伟被查
    南京市江北新区管委会原副主任刘志伟被查

    来源:北京青年报据江苏省纪委监委消息消息,南京市江北新区党工委原委员、管委会原副主任刘志伟涉嫌严重违纪违法,目前正接受江苏省纪委监委纪律审查和监察调查。公开简历显示,刘志伟出生于1961年3月,曾任江 ...

  • Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈
    Hinton与姚期智对谈:认为人类的意识特殊,那是危险的无稽之谈

    那个因为腰痛而坐不下的男人,终于还是在WAIC坐下了,对面则是同为图灵奖得主、上海期智研究院院长姚期智先生。Geoffery Hinton给大家带来了几个话题与故事,几乎每一个都是关于人与AI的。第一 ...

  • 美英尽说马克龙,但似乎声调开始不同!
    美英尽说马克龙,但似乎声调开始不同!

    但事情又必须一步步来。目前,法国“起跑”,英国跟上,欧洲向正确的方向前进,总是没错的!文 | 海上客法国总统马克龙正式宣布了——法国将于今年9月正式承认巴勒斯坦国!“我计划在今年9月于联合国大会期间正 ...

  • 古巴总理:古巴不会屈服于美国敌对政策
    古巴总理:古巴不会屈服于美国敌对政策

    古巴党政领导人和众多民众7月26日在该国中部城市谢戈德阿维拉隆重集会,纪念“7·26国家起义日”。古巴总理马雷罗当天在纪念活动上强调,古巴不会屈服于美国对古敌对政策,将战胜重重困难,不惜一切代价捍卫国 ...

  • 山西一辆载12人的中巴车,因强降雨失联
    山西一辆载12人的中巴车,因强降雨失联

    “山西新闻联播”微信公众号消息,7月27日5时8分,大同市天镇县一辆载有12人的依维柯中巴车在谷前堡镇附近因强降雨失联。山西省委省政府高度重视,要求全力做好救援工作。7月23日以来,山西省北中部因强降 ...

风趣新内塔尼亚胡要求以军缩短进攻加沙城时间表
专点今日下午15时,密云水库向下游泄流
风事点柬埔寨称泰在柬沿海部署8艘军舰
风趣独6人遇难矿企2024信用等级为三级(较差)
风站汇走过咖啡屋,再无千百惠
爆站王曦雨赢得好姐妹大战遭网友辣评:是秀好体能,还是故意整事

话讯

更多 >