{label:top}
首页 >> 新讯> 正文

实测豆包1.5后,看到了字节不走捷径的底气

来源:新讯发布时间:2025-09-09 17:31:46
浏览:14

2025 年 1 月,实测豆包大模型 1.5 全面上线火山方舟,豆包到字底气其中豆包通用模型 pro 在多个权威测评集综合得分优于GPT4o、节不径Claude 3.5 Sonnet 等业界一流模型,走捷模型效果达到全球领先水平。实测

通用模型 pro 实现了性能与推理成本极致平衡,豆包到字底气苏州学院实拍体验采用高效的节不径 MoE 模型结构,性能杠杆提升至 7 倍,走捷更有自研的实测高性能推理系统,可以达到 10 毫秒级低延迟。豆包到字底气并且,节不径豆包大模型 1.5 建了高度自主的走捷信息生产体系,未使用任何其他模型生成的实测信息。

除此之外,豆包到字底气豆包通用模型 pro、节不径豆包·视觉理解模型均有大幅增强,并发布豆包·实时语音模型。但豆包大模型 1.5 全产物,加量不加价,仍继续保持原有模型价格不变。

本文实测了豆包大模型 1.5 产物家族后,看到了字节不走捷径的底气。

一、综合能力优于业界一流模型

Doubao-1.5-pro 模型综合能力显著增强,在知识(MMLU_PRO、GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)权威测评基准上获得最佳成绩,上海大学爆料攻略综合得分优于GPT-4o、Claude 3.5 Sonnet 等业界一流模型。

实测豆包1.5后,看到了字节不走捷径的底气

话不多说,先通过和其他行业内领先大模型的对比来直观感受一下。针对推理能力,设置一个大约在初级和中级水平的代码问题:问题:使用 Flask 框架创建一个简单的 Web API,包含以下两个端点:

/: 返回一个欢迎消息,例如 {"message": "Welcome to the API!"}。/add: 接受两个整数参数 a 和 b(通过查询参数传递),返回它们的和,例如 {"sum": 5}。

要求:

提供可运行的完整代码。说明如何在本地运行此代码并进行测试。

这一测试题所传达的需求明确清晰且聚焦于核心功能,但并未说明如何处理错误逻辑或参数类型。先来看GPT-4o 将如何应对:

可以看到 GPT-4o 的答案相对中规中矩,并针对问题本身包含的漏洞,给出了一个错误处理示例。再来看看 Doubao-1.5-pro 给出的答案:

显而易见,豆包关于代码问题的输出格式设置,会更贴近原生的编码界面。相较于 GPT-4o ,能够进行必要且详细的代码说明,并且在这一部分对参数类型问题就给出了预设和解答,即如果参数并不有效,状态代码就为400,然后才给出了运行代码并进行测试的方法。总体而言,Doubao-1.5-pro  相较于 GPT-4o 输出的代码会更加精细一点。

针对“知识能力”一项,将 Doubao-1.5-pro 和同为主打中文语境的一个国产模型进行对比,提出的问题是:唐代有哪些古诗中包含“过年”这件事?国内某大模型产物给出的答案是:

给出的答案数量有十个之多,但每个答案的颗粒度不够,仅包括作者和50字左右的大概介绍,于客户而言可能无法对提出的问题有深入的了解。

Doubao-1.5-pro  则相对完美地规避掉了这一问题。先在逻辑上进行了清晰的划分,给出了体现过年氛围与习俗与抒发过年时情感思绪的两个大方向,并且针对所给出的每一个答案的颗粒度也相对细些,包括了原文和解析,内容明显更丰富。

实测豆包1.5后,看到了字节不走捷径的底气

针对复杂问题的推理能力,Doubao-1.5-pro  在现实的中文语境中展现出了明显的优势,所提出的问题是:2025年上半年,我有3万元想进行理财,是选择中国建设银行还是选择中国工商银行?收益各是多少? Gemini  1.5 Flash 给出的回答如下:

实测豆包1.5后,看到了字节不走捷径的底气

也许是由于信息库的问题,Gemini 推理出的结果会相对空泛,并没有给出实质性的建议,也没有给出题目中要求的大致收益。而 Doubao-1.5-pro  的回答则具有针对性,并能够条理清晰、分门别类的给出针对活期类、定期类、特色理财产物的的不同收益,能够满足问题提出者对这一问题的基本需求。

实测豆包1.5后,看到了字节不走捷径的底气

中文能力方面,设置的问题是:请以爱情和轻舟已过万重山为主题,写一首七言律诗。Doubao-1.5-pro 的遣词造句明显优于 GPT-4o 等其他的模型,并能够更进一步给出首联、颔联、颈联、尾联解析。

实测豆包1.5后,看到了字节不走捷径的底气

而 GPT-4o 的中文能力则稍逊一节,回答得相对简单,词藻也较为朴素。

实测豆包1.5后,看到了字节不走捷径的底气

除了 Doubao-1.5-pro  ,本次也发布了更加轻量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具备极致的响应速度,适用于对时延有更高要求的场景,模型配合精调使用可以获得更优质的效果,并且在轻量版语言模型中处于领先水平,在综合(MMLU_pro)、推理(BBH)、数学(MATH)、专业知识(GPQA)权威测评指标持平或超越GPT-4omini,Cluade 3.5 Haiku。先来感受一下极致的推理和响应速度,提问一个中等难度的推理问题:有三个人分别穿着红、蓝、绿三种颜色的衣服,他们分别来自 A、B、C 三个城市。已知:穿红衣服的人不是来自 A 城市;穿蓝衣服的人来自 C 城市;来自 A 城市的人没有穿绿衣服。请问,这三个人分别来自哪个城市,穿着什么颜色的衣服?

实测豆包1.5后,看到了字节不走捷径的底气

在不省略已知条件、推理过程的情况下, Doubao-1.5-lite 输出答案仅用了 1.55 秒,这个推理时间确实极致。再提出一个更复杂的专业问题:请简述股票估值的三种主要方法(市盈率法、现金流折现法、净资产法),并分析在不同市场环境下,哪种方法更适用?

实测豆包1.5后,看到了字节不走捷径的底气

这是一道金融行业的专业知识题目。Doubao-1.5-lite 的回答内容详实,能够 cover 住垂直领域的专业知识,并且在面对庞杂的、体量大的问题时,总输出时长只有 6.77 秒,同样在一个低时延的水平范围内。

值得一提的是,Doubao-1.5-lite 模型效果比肩去年 9 月份发布的主力模型 Doubao-pro-32k-0828,这意味着客户可以用 lite 模型的成本,获得过去 pro 模型的效果。

无论是 Doubao-1.5-pro 还是 Doubao-1.5-lite,都是字节在追求模型性能与推理性能的极致平衡,也是字节一路积累下来的基本功的体现。

从训练和推理效率的角度出发,Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段,仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。豆包团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能,等效 7 倍激活参数的Dense模型性能,远超业内 MoE 架构约 3 倍杠杆的常规效率。

实测豆包1.5后,看到了字节不走捷径的底气

基于 MoE 模型,豆包搭建了高性能推理系统,在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中,表现出显著不同的计算与访存特征。针对四个不同象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。

更关键的是,在 PostTraining 阶段,豆包团队构建了一套完全自主的信息生产体系,将标注团队与模型 self play 工艺相结合,提升信息标注多样性和难度,确保信息来源的独立性和可靠性。在豆包大模型1.5的训练过程中,未使用任何其他模型生成的信息。这意味着,字节在踩踏实大模型训练的基本功、加大基础工程投入、放弃短期获利,这已经区别于世界范围内绝大多数不肯下“笨功夫”的大模型公司。

二、视觉推理、指令遵循达新高

本次发布中,豆包的视觉理解能力令人惊艳,具备市面上绝大多数 To C 的 AI Chatbot 并不具备精准的图像理解、识别、问答能力。Doubao-1.5-vision-pro 在多模态信息合成、动态分辨率、多模态对齐、混合训练上进行了全面的工艺升级,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力,也拥有了更细腻的视觉描述能力。Doubao-1.5-vision-pro 的视觉能力在多个权威测评基准上取得了全球领先表现:

实测豆包1.5后,看到了字节不走捷径的底气

基于原生动态分辨率的架构设计,Doubao-1.5-vision-pro 能够支持任意分辨率和极端长宽比图像识别。因此,无论是高清大图还是低分辨率的小图,亦或是极端长宽比例的图像,模型都能实现精准的特征提取和高效的计算性能。先来看一下针对复杂图表的理解能力。给出如下图表,并向 Doubao-1.5-vision-pro 提问:该图表反映了什么内容?

实测豆包1.5后,看到了字节不走捷径的底气

从上述的回答中可以见得, Doubao-1.5-vision-pro 对图表内信息内容的解读是准确无误的,并能针对某些数值给出基本的关于趋势、显著性的结论。

针对低清晰度问题,给出如下一张清晰度低、分辨率低的界面,进而考察模型对其中内容识别和理解的准确程度。

实测豆包1.5后,看到了字节不走捷径的底气

实测豆包1.5后,看到了字节不走捷径的底气

从上述的回答中可知,Doubao-1.5-vision-pro 同样能够准确识别模糊内容,并做出基础的推理判断:客户正在为影片应用创意外观预设并进行色彩调整。再上一个难度,针对字迹潦草的手写图片,Doubao-1.5-vision-pro 能否准确识别?

实测豆包1.5后,看到了字节不走捷径的底气

不得不说,这个图片如果不仔细看的话,人眼都不一定能看清,而豆包则能提取道其中 95% 的关键词和主题,且识别出了部分关键词用蓝色笔标注来突出重点内容,并进一步总结该笔记聚焦于媒体研究领域。除了精准的识别能力,Doubao-1.5-vision-pro 也具备强大的多类型图片内容提取能力。

实测豆包1.5后,看到了字节不走捷径的底气

上传四张同一时期拍摄的照片,模型能在处理多张图片时获取关键要点,并总结出是“新年庆祝”的主题。复杂指令遵循能力也是 Doubao-1.5-vision-pro 的亮点,通过系统性的原子能力拆解和多维度指令的逻辑组合,在后训练阶段引入了多样化的视觉指令信息,从而激发模型的指令遵循能力,从容应对需要遵循更复杂指令的场景。

不仅视觉大模型的能力得到提升,本次豆包大模型1.5家族中还新推出了实时语音模型。该模型提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,不仅拥有高理解力(高智商),还具备语音高表现力与高控制力,以及模型整体在回复内容和语音上的高情绪承接能力。

在语音多模态上,我们提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。

可以说是一个情绪价值价值拉满、表现能力生动,也不怕被打断的豆包了。

三、豆包 1.5 发布后,AI 更普惠

2024 年 5 月,豆包主力模型就将推理输入价格降至“厘时代”,12 月火山引擎又让视觉理解模型价格进入“厘时代”。当下豆包大模型 1.5 继续保持原有模型价格不变,加量不加价,也会给火山引擎进一步做大 B 端市场带来更多可能性。

在这场旷日持久的大模型落地竞赛中,字节给行业留下的印象是“从容”。支撑豆包大模型全产物价格普惠的原因,是推理成本持续优化、毛利率的逐渐增加。据了解,豆包大模型去年大幅降价后,毛利率依然为正。其中,字节跳动最新推出的豆包大模型 1.5,在推理成本优化上取得进一步突破,在火山引擎上售卖 API 的 Doubao-1.5-pro,毛利率仍能达到较为可观的 50%。

不能只看到火山引擎中 API 价格下调的从容,更需要看到的是,豆包大模型团队所打造的综合高效模型架构、高性能推理体系、自建信息标注工程等深厚的工艺优势,以及对于大模型这条路不走捷径的长期主义战略。

更高性价比的支持也让火山引擎在商业化落地的过程中跑在前列。2024 年,火山引擎在汽车行业与梅赛德斯-奔驰、广汽集团、领克汽车等多家企业达成合作;在金融行业与招商银行、华泰证券、国信证券等企业进行智能体创新探索;在教育行业和浙江大学、南京大学打造了 AI 教育示范合作案例。

豆包大模型 1.5 的升级和火山引擎在 B 端市场的进一步拓展,二者生生相息、共同推进 AI 惠普。

雷峰网(公众号:雷峰网)雷峰网雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

实测豆包1.5后,看到了字节不走捷径的底气

在线吃瓜

更多 >
  • 即日起,江苏苏州取消市区范围内新建商品住房2年限售
    更新:2025-09-09 16:42
  • 巴基斯坦一火车脱轨 至少25人受伤
    更新:2025-09-09 15:57
  • 单磊演唱歌曲《河西铁骑》今日正式上线 唱响河西走廊千年豪情
    更新:2025-09-09 15:37
  • 蒙特利尔赛被球员集体投诉,朱琳透露凌晨4点多被火警警报吵醒
    更新:2025-09-09 15:12

热门文章

  • 内塔尼亚胡要求以军缩短进攻加沙城时间表
    内塔尼亚胡要求以军缩短进攻加沙城时间表

    内塔尼亚胡要求以军缩短进攻加沙城时间表

    △内塔尼亚胡资料图)当地时间20日,以色列总理办公室发表声明称,以总理内塔尼亚胡已指示军方,要缩短进攻加沙城的时间表,击败哈马斯并夺取其控制地区。当日,以色列国防军发言人德弗林对媒体表示,以军已经控制 ...

  • 日本找中国合办世界杯,有戏吗?
    日本找中国合办世界杯,有戏吗?

    日本找中国合办世界杯,有戏吗?

    来源:中国新闻周刊该不该抓这个机会近日,多家日本媒体报道,日本足球协会公开表示:希望申办2046年世界杯。报道中透露,日本足协还希望和亚足联的几个邻居联办,其中包括但不限于中国、韩国、澳大利亚、印尼等 ...

  • 勇闯团播的年轻人:顶着好奇与误解,渴望给自己打一束光
    勇闯团播的年轻人:顶着好奇与误解,渴望给自己打一束光

    勇闯团播的年轻人:顶着好奇与误解,渴望给自己打一束光

    从能容纳十万观众的鸟巢,到不到100平米的直播间,27岁的影子反而觉得自己的舞台变“大”了。至少这里有一束光是专门打给他的。去年7月,喜欢跳舞的影子闯进了“团播”多人才艺直播)行业。镜头拉得足够近,灯 ...

  • 重庆方言唱响江湖情书,布瑞吉Bridge演唱会抖音特别场圆满收官
    重庆方言唱响江湖情书,布瑞吉Bridge演唱会抖音特别场圆满收官

    重庆方言唱响江湖情书,布瑞吉Bridge演唱会抖音特别场圆满收官

    来源标题:重庆方言唱响江湖情书,布瑞吉Bridge演唱会抖音特别场圆满收官山城的雾霭未散,嘉陵江的浪涛依旧,重庆,这座融合着现代与历史、时尚与烟火的城市,孕育出布瑞吉Bridge独有的说唱,而他的音乐 ...

  • 中国“人工智能+”行动“路线图”来了
    中国“人工智能+”行动“路线图”来了

    中国“人工智能+”行动“路线图”来了

    新华社北京8月26日电新华社记者魏玉坤8月26日,“人工智能+”行动迎来重要进展:国务院印发的《关于深入实施“人工智能+”行动的意见》对外发布,明确了实施“人工智能+”行动的总体要求、发展目标和重点方 ...

  • 财政部发布关于国债等债券利息收入增值税政策的公告
    财政部发布关于国债等债券利息收入增值税政策的公告

    财政部发布关于国债等债券利息收入增值税政策的公告

    8月1日,财政部、税务总局公告:自2025年8月8日起,对在该日期之后含当日)新发行的国债、地方政府债券、金融债券的利息收入,恢复征收增值税。对在该日期之前已发行的国债、地方政府债券、金融债券(包含在 ...

  • 今日辟谣(2025年7月31日)
    今日辟谣(2025年7月31日)

    今日辟谣(2025年7月31日)

    来源:中国互联网联合辟谣平台2025年7月31日辟谣:有关台风“竹节草”的这些谣言,别再传了!详情:近期,台风“竹节草”登陆我国,引发关注。当公众目光聚焦抗击台风一线时,一些谣言信息却在网络上流传,不 ...

  • 天然钻石开采的低碳转型之路,实现璀璨与责任同行
    天然钻石开采的低碳转型之路,实现璀璨与责任同行

    天然钻石开采的低碳转型之路,实现璀璨与责任同行

    来源标题:天然钻石开采的低碳转型之路,实现璀璨与责任同行在全球积极应对气候变化、大力倡导低碳经济的当下,各行业都在探寻减少环境影响的可持续发展路径。天然钻石开采业虽曾因对环境的潜在影响而备受关注,但如 ...

风汇集

更多 >
  • 特朗普重申:美国将不再批准光伏或风电项目
    特朗普重申:美国将不再批准光伏或风电项目

    来源:财联社财联社8月21日讯编辑 牛占林)当地时间周三,美国总统特朗普表示,他的政府将不会批准光伏或风力发电项目,即便在那些电力供应不足的地区。特朗普当天在Truth Social平台发文称:“我们 ...

  • 北京此次洪涝灾害造成30余万人受灾
    北京此次洪涝灾害造成30余万人受灾

    来源:北京青年报7月31日,北京市召开防汛救灾新闻发布会,北京市委常委、常务副市长夏林茂介绍,此次洪涝灾害造成30余万人受灾,2.4万间房屋受损。文/北京青年报记者 王斌点击进入专题:北京遭遇极端强降 ...

  • 男子称遭奔驰司机“亮证”逼迫让路,警方通报
    男子称遭奔驰司机“亮证”逼迫让路,警方通报

    8月1日晚,防城港市公安局边境管理支队发布情况通报称,8月1日上午,有网民及媒体发布视频称“会车遇奔驰女司机亮证逼迫让路、派出所民警上门要求删帖道歉”。公安机关已密切关注有关情况,现已成立工作组展开调 ...

  • 北京暴雨蓝色预警!午后西部北部局地暴雨,伴大风
    北京暴雨蓝色预警!午后西部北部局地暴雨,伴大风

    据北京市气象台8月2日9时发布的天气预报:今天白天多云转阴有分散性雷阵雨,北转南风二三级,最高气温32℃;夜间阴有雷阵雨转多云,南转北风一二级,最低气温24℃。午后至夜间有雷雨,雨量分布不均,西部北部 ...

  • 尼日利亚一船只倾覆 20余人失踪
    尼日利亚一船只倾覆 20余人失踪

    △船只倾覆事故发生后,相关人员开展搜救行动8月17日,尼日利亚索科托州一艘载有50多人的客船在航行途中倾覆。当日的搜救行动救起25人,此后2天的搜救行动无果,搜救行动19日结束。当地时间20日,当地紧 ...

  • 《扫毒风暴》持续热播,口碑收视均表现突出
    《扫毒风暴》持续热播,口碑收视均表现突出

    来源标题:《扫毒风暴》持续热播,口碑收视均表现突出备受关注的禁毒题材剧《扫毒风暴》持续热播,腾讯视频站内热度高涨,豆瓣评分涨至8分,酷云数据显示其在央视八套收视率一度突破2%,历史峰值高达2.54%, ...

  • 荧屏养“狗”指南:男星颜值高,还要够带感
    荧屏养“狗”指南:男星颜值高,还要够带感

    作者|肉丁早八靠冰美式灌醒灵魂,晚八靠“嗑CP”精神回血,一边现实里鞠躬尽瘁当牛马,一边看偶像剧女主“训狗”、补充精神食粮,当代职场人的续命法宝已经从保温杯里的枸杞,换成了屏幕里“姐说一狗不敢说二”的 ...

  • 票房破59亿元!今年暑期档有何看点
    票房破59亿元!今年暑期档有何看点

    来源标题:票房破59亿元!今年暑期档有何看点新华网北京7月31日电记者赵宇娇 游苏杭)2025年电影暑期档已过大半。据灯塔专业版数据,截至7月31日下午15时,2025年暑期档6月-8月)总票房含预售 ...

  • 北京市发布暴雨黄色预警
    北京市发布暴雨黄色预警

    来源:北京市气象局预计21日下午至夜间,我市部分地区将出现小时雨强50毫米以上或6小时降雨量70毫米以上的强降水,山区及浅山区可能出现山洪、泥石流、滑坡等次生灾害,低洼地区可能出现积水,请注意防范。 ...

  • 周渝民夫妇的瓜,有点炸
    周渝民夫妇的瓜,有点炸

    来源:黎兜兜来源 | 乐活记ID | lokwooo2025年7月的娱乐圈,一则“周渝民夫妇被闺蜜诈骗”的热搜如惊雷般炸响。这场涉及3447万新台币约840万人民币)的诈骗案,不仅撕开了明星光鲜生活的 ...

  • 银河酷娱回应赵露思微博长文
    银河酷娱回应赵露思微博长文

    赵露思8月3日,银河酷娱发布声明称,昨日获悉赵露思所发表的微博内容,公司深感震惊和突然。声明中提到,多年以来的合作中,公司与赵露思一直相互陪伴、共同成长,从不存在任何违法或违约行为。尤其在赵露思生病之 ...

  • 日本战败80周年,“石破茂考虑不发表个人谈话”
    日本战败80周年,“石破茂考虑不发表个人谈话”

    据环球时报援引日本共同社8月1日报道,多位自民党高层透露,日本首相石破茂可能已决定放弃于8月15日,即战后80周年纪念日发表个人书面谈话的计划。另据日本朝日新闻援引消息人士称,此举主要是因为参议院选举 ...

综合SpaceX“星舰”成功溅落,第十次试飞圆满结束
风集潮结束20年婚姻,她终于不忐忑了
风风报兵种军旗发布!组图来了
瓜点《最美中轴线》特别直播:赵磊中轴线上探非遗,解锁掐丝珐琅技艺
风点闻突发!SASI全面开火!
快汇《戏台》彩蛋震撼,余少群演虞姬绝了!17年后再翻红,43岁仍未婚

风汇台

更多 >