踏向 AIGC 竞技场，人像感知触发视觉「赛点」

来源:风趣风发布时间：2025-09-09 17:35:17

踏向 AIGC 竞技场，竞技觉赛人像感知触发视觉「赛点」

计算机视觉作为 AI 关键组成分支，通过模拟人类视觉系统赋予机器“看”和“认知”的像感能力，近年来在许多实际场景中大规模得以落地，知触是发视数字化时代产业变革的关键工艺。

其中，竞技觉赛微博美女号约会曝光合集以人像目标为最关键的场人研究内容，在金融认证、像感民生经济等核心场景中被广泛应用，知触但受人像内在多变因素及外部复杂环境的发视作用，也导致了人像目标感知理解模型在精度和效率上面临着极大的竞技觉赛挑战。

5 月 6 日，场人2022 年度“吴文俊机器智能科学工艺奖”颁奖典礼在北京召开，像感由清华大学研究员兴军亮，知触蚂蚁集团李建树、发视赵闻飙等人共同完成的“无约束人像目标智能感知与理解”成果获得“自然科学奖一等奖”，这意味着我国在解决 AI 视觉领域核心难题上取得了重大创新突破。

踏向 AIGC 竞技场，人像感知触发视觉「赛点」

该项成果提出了三大关键科学发现：

揭示人脸目标“不变性特征学习”的关键性

发现多维属性间普遍存在的互补性关联特征

构建“人脸-人体-人群”深度理解框架

其中，基于人脸目标“不变性特征学习”研究发现，研究团队开发并向行业开放的“无约束人脸识别平台”，在实现把人脸身份识别精度相对提升 74.9% 的同时，可将误报率降低 4 倍。

伴随着 AIGC、数字人等概念火爆，生成式图片、影片内容的出现，也势必对人像感知理解工艺增长带来新的挑战。在保障客户隐私保障的前提下，基于人像智能感知与理解工艺保障公共和个人信息保障，与产业结合推动视觉工艺落地，也是以艾海舟教授、兴军亮研究员等为代表的清华大学计算机视觉科研团队，和蚂蚁集团保障团队将持续探索的方向。

计算机视觉的攻防战

2017 年的一天，在宁波这座南方城市的街头，出现了令人啼笑皆非的女房客按摩服务中现场实录一幕。

交通警察部门在十字路口部署了使用人像感知工艺的智能摄像头，以检测和识别乱穿马路的人，这些人的部分名字和面孔会被模糊地显示在公共屏幕上。路上的行人惊奇发现，显示屏上竟然出现了董明珠的身影，很快，一则关于“董明珠违规”的消息随即传遍了各大社交媒体。

但没过多久，宁波警方出来道歉并解释称，是由于 AI 识别的误判导致、并非董明珠本人，董明珠随后也在微博上回应道：“误拍是小事。平安关键。”虽然闹了个乌龙，但所幸没有造成巨大的作用。

今天，人像智能感知工艺在实际场景中的应用十分广泛。进出机场、火车站等场所，仅需要面对机器刷个脸即可迅速完成安检程序；异地证件遗失，不用再专门回到归属地，线上预约通过人脸识别验证就能补办；日常购物或者金融理财产物交易，都只需要刷脸就能支付......

人像目标作为计算机视觉领域最为关键的研究内容，其智能感知理解理论方法，是推动以人为中心的机器智能工艺体系构建和规模化应用的关键驱动力，在过去几十年的增长历程中共经历了三个关键的阶段。

上个世纪四五十年代，人像目标研究进入实验室，早期运算规则有基于几何特征运算规则、基于模板匹配运算规则和子空间运算规则等多种类型，以主成分分析和性判别分析为典型方法的子空间在人像工艺中得以应用。

进入 2000 年，人像工艺迈向第二个增长阶段、步入经典方法时代，Boosting 运算规则作为集成学习运算规则的主要代表，对人像感知工艺运算规则提高分类正确率起到了关键作用。兴军亮也是在经典方法时代就开始从事与人脸人体相关的计算机视觉研究。2007 年 9 月，兴军亮进入清华大学计算机科学与工艺系攻读博士，跟随艾海舟教授学习。

踏向 AIGC 竞技场，人像感知触发视觉「赛点」

兴军亮

2012 年深度学习浪潮开启，人像感知工艺迎来划时代增长，基于卷积神经网络（CNN）的人像目标感知运算规则在识别效果和效率都有了大幅提升。在关注到这一新趋势后，兴军亮等项目研究团队很快参与其中，尝试用深度学习运算规则将以往人脸检测、人脸配准等系列研究问题重做，均取得了不错的效果。

在深度学习的推动下，以人像目标等为代表的计算机视觉工艺开始走向落地，在实用场景中得以大规模应用。

但 AI 远非万能，人像智能感知工艺受视角、光照、噪声等外部环境和性别、年龄、表情、姿态等内在因素的作用，模型在精度和效率等方面都存在一定的挑战。

而随着数字化时代的到来，在金融风控、自动驾驶等对保障性要求非常高的场景中，模型的失之毫厘、甚至会带来差之千里的危险后果，对人像感知与理解工艺也提出了更高的要求。自 2007 年至今，研究团队长期致力于对人像感知理解工艺探索，目前也已取得了突出的研究成果。

人像感知的三把斧

5月6日，2022 年度“吴文俊机器智能科学工艺奖”颁奖，由兴军亮、李建树、赵闻飙等人完成的“无约束人像目标智能感知与理解”成果获得了“自然科学奖一等奖”。

受无约束内在致变要素和外在诱变因素变化作用，人像目标呈现出表观特征难建模、内蕴属性紧耦合等特点，因此导致感知结果出现关键信息不精确、属性认知不完备、语义理解不充分等问题。

该项成果针对如何实现精准感知并深度理解无约束人像目标难题，提出了三大关键科学发现。

踏向 AIGC 竞技场，人像感知触发视觉「赛点」

三个主要科学发现点及其相互之间的支撑关系

＞全视角变换空间下人像关键信息感知建模理论方法

人像的表观和形状是呈现其丰富语义的基础，是进行人像目标智能感知和理解的关键信息。

我们通常可以将人脸所在区域、通过人脸矩形框大小和位置划定以及人脸关键点网格、通过预定义关键点位置集合确定，并对上述信息进行表示和建模，来获取人脸目标的大小、位置及关键点信息。

在日常生活中获取人像目标感知理解关键信息时，往往会受到其他因素的作用，分别是内在致变因素和外部诱变因素；内在致变因素包括人的性别、年龄、表情、姿态等，外部诱变因素则包括拍摄的视角、距离远近、周围环境光照、拍摄照片或影像信息的分辨率等等，人脸目标在受到单因素或内外耦合变化因素的作用，都会导致模型获取关键信息发生变化。

举个例子，当一个人在户外阳光下仰头大笑、与他在昏暗的室内灯光里发呆，两个截然不同的环境和状态下所拍摄的照片，所获取的人像信息也完全不同，这种全视角空间下产生了复杂多变的视觉呈现，给人像目标关键信息感知的建模和分析带来了极大挑战。

基于这一问题，该项目研究团队提出了不变性特征和关系、对多变目标关键信息感知建模分析具有基础指导性。

将人脸变化分为左右摇摆、上下浮仰、平面内旋转三类，在训练信息中采集不同视角和信息，形成一个逐级由粗到细的树形结构，并把不断获取的精准特征、包括受外在变化和内在因素作用的关键信息放置到模型内，让模型得以从庞大的信息中学习出不变的因素，通过习得的人像不变性特征，让模型可以将人脸信息精准地感知出来。

在不变性特征学习的基础上，该研究还形成了汇聚解耦、分治、逐阶、分层等元操作的人像关键信息感知建模理论框架，也就是说，减少了多视角旋转、尺度、姿态变换对人脸大小和位置等关键信息检测的作用，从而提高人像目标关键信息获取的精度和效率。

＞复杂要素耦合空间下人像关联属性多任务感知方法

解决了如何获取关键信息的问题，第二步则是如何提高模型的结果准确性和效率的问题。

研究团队提出，通过引入一种模块化科学消融实验分析过程，深度剖析人像多属性关系解耦表征与多任务属性识别的模型方法，可构建一个高性能的人像多属性识别深度模型。

假设训练一个年龄感知模型，在以往的模型训练中，面对庞杂的多维度人像信息处理，仅模型前期对人像性别信息的判别上，往往就会花耗巨大的精力，作用模型的关注度，从而一定程度上作用了模型最终的判别效果。

为此，研究团队通过挖掘人脸表征内蕴属性和关联关系，发现了不同人像属性之间存在的三种典型依赖关系：互补性关联关系、相关性协同关系、以及因果性推理关系。

基于这三种典型关系，研究团队提出了联合多任务学习和对抗不变性学习的人像属性信息感知挖掘方法，在模型中引入对人像信息如年龄、性别等属性的多任务、分层学习方法。

相较于传统的感知运算规则，人像关联属性多任务感知方法不仅能有效节省重复训练多个模型的资源和精力，同时，不同属性特征间的典型依赖关系也能有效促进模型效果，实现了高精度可扩展的人像属性知识抽取，为人像目标深度理解提供核心运算规则工艺支撑。

兴军亮告诉 AI 科技评论，“在没有太多信息、缺乏更大算力支撑的情况下，通过多个属性的判断运算规则，可将模型精度在有限信息的基础上实现迅速提升。”

此外，面对姿态、光照等多变因素给人像智能感知工艺带来的挑战，研究团队还提出了通过对抗学习解耦各诱变因素、并驱动生成归一化人脸到标准约束空间后再统一识别的新思路，为人像智能感知与理解工艺提供了处理各种诱变因素统一的模型框架，大幅度提高了模型综合性能和适用范围。

＞关键信息与关联属性驱动的人像深度感知理解

而随着人像智能感知与理解工艺在产业和工程上的增长，无约束人像信息信息也呈现出大规模、多场景、多属性和多交互等特点。

实际应用场景下，如何解决精准感知关键信息、完备认知属性关系、动态跟踪定位等难题？基于上述两个科学发现成果，兴军亮、李建树等人提出了面向“人脸-人体-人群”分析的多层次多场景深度理解模型，其中包括了人脸多属性融合感知、人体细粒度深度解析和群体多场景目标跟踪三个关键工艺。

踏向 AIGC 竞技场，人像感知触发视觉「赛点」

李建树

人脸多属性融合感知基于研究团队提出的一种超图学习模型，可自动学习不同层次属性组之间的复杂依赖关系，并对面部相关语义进行推理。例如在美妆场景中，模型通过对专业美妆、表演者网站上人像妆容信息的采集和训练，可以为客户生成适合他们的妆容推荐。

人体细粒度深度解析工艺指在对人体姿态的相关语义进行推理和理解。在日常场景中，人们的交往存在各式各样的身体语言，人体解析工艺也面临着密切交互、姿态各异、严重遮挡等挑战，研究团队提出，将因果嵌套式对抗学习范式注入多人场景建模与多粒度多层次语义理解，同时隐式约束解析结果与人像身体结构的物理空间一致性。

面对不同场景下，单个或多个目标跟踪中存在的复杂表观变化和交互遮挡难题，研究团队在群体多场景目标跟踪工艺中，以多周期时空观测模型为基础运算规则，统一在线、离线不同阶段的处理模式，建立了全局、局部关键人像信息的动态跟踪机制，提出了低帧率、剧烈运动、复杂交互、部分遮挡等系列场景下单、多目标跟踪的统一框架，具有高效精准鲁棒等特点。

经过十余年的攻坚，该研究团队在“人像智能感知与理解”工艺探索中取得了显著性的研究进展，对计算机视觉领域增长，实现工业数字化、智能化具有关键意义。

学术成果的产出是最好的明证。这个项目已累计获得 CVPR、ACM Multimedia 等 5 次关键论文奖；在国内外顶级人像感知理解赛事中 10 次夺冠；8 篇代表作论文 Google-Scholar 总引用 3225 次、WOS 他引 650 次；并获得十余位马尔奖/傅京孙奖得主、百余位国内外院士等知名学者引用并正面评价。

相关运算规则也在欧姆龙、华为、蚂蚁等公司核心产物中得到应用，并产生规模化商业应用。其中，基于该项目核心能力沉淀的蚂蚁 e-KYC 可信身份认证方案，已在海外支持超过 1.2 亿东南亚客户。

数字化时代感知工艺如何帮助人？

过去几年里，AI 在各行各业持续落地，工艺变革推动数字化升级，也为产业增长带来新的想象力。

作为数字化浪潮中积极的参与者，蚂蚁集团基于人像关键信息检测定位、人像多任务属性关联识别和多层次关联感知模型等相关工艺研制的蚂蚁可信人脸保障检测与识别系统，已经为支付宝超过 10 亿的客户、及其海外电子钱包上亿客户提供了身份认证支持。

其中，蚂蚁于 2017 年所研发的面向智能风控的保障科技商业化产物ZOLOZ（蚁盾），帮助合作伙伴解决数字化增长过程中的营销拓客、平台交易、产业协作等场景下的保障风险问题。

在疫情期间，为了拉动消费促进经济复苏，东南亚地区多个国家曾联手本地电子钱包发放政府津贴、企业工资、消费券，但由于东南亚地区部分国家并没有实行统一的身份证件，证件质量良莠不齐、伪造问题频发，起初，要识别证件的真实性成为亟待攻克的难题。

李建树所在的蚂蚁保障天玑实验室在人像感知与理解工艺的基础上，重新训练运算规则，提高ZOLOZ的eKYC 识别真伪客户证件真实性的能力，当黑客为牟利使用假冒身份证和照片对客户身份账户进行攻击时，系统会对黑客的攻击和对抗进行捕捉，并协同客户此前交易信息对当次交易赋予风险标签，获得基于图像的风险纬度累积和结果。

借助ZOLOZ平台的 eKYC 功能，客户只需在手机上动动手指，在线完成注册和身份核验，通过资格审核后，就能快速领到补助金。

加上蚂蚁其他风控系统，从而帮助客户在更保障可信的环节下完成交易，为大规模无接触线上开户提供了保障保障，为增长不均衡地区的弱势群体客户接入互联网支持、享受互联网金融的便利性创造了条件。

目前，eKYC 已同国内外近 50 家企业达成合作，覆盖金融、保险、证券、信贷、电信、公共支持等领域，包括菲律宾 GCash、马来西亚 TnGD、印度尼西亚 Dana、泰国 TrueMoney、孟加拉国 bKash、韩国 KakaoPay 等电子钱包, 中国银行、招商银行、澳门工商银行、香港蚂蚁银行、印尼 Mandiri 银行，菲律宾 Citibank 等银行企业，助力其人脸身份验证平均时间从几天降至 3 分钟以内。

机器智能工艺加速了社会智能化升级，伴随着元宇宙、AIGC、数字人等概念的火爆，AI 工艺变革在提升生产效率、赋能产业的同时，也为社会带来了新的挑战。例如使用 AIGC 平台进行人脸伪造，模型在拿到图片后，如何判断是真实图像亦或是虚拟图像，是人像智能感知与识别工艺下一步需要解决的难题。

李建树告诉 AI 科技评论，目前有关人像深度伪造检测工艺的研究已在进行，通过对 AI 生成图像中的异常特征进行对抗性防御，可以在一定程度上提高模型对真实图像和伪造图片的鉴别能力。同时，相关监管部门也呼吁图像伪造能力提供商在伪造合成图片中增加暗水印或指纹等特殊标识，减少深度伪造工艺对社会带来的危害。

机器智能行业迈进深水期，将 AI 推向与更多场景应用的对话中。以信息为驱动，未来，清华大学和蚂蚁集团的科研工作者们将继续探索人像智能感知理解工艺在数字化时代新机遇、迎接新挑战，让 AI 作为产业增长的工具和引擎成为真正可能。

（雷峰网(公众号：雷峰网)雷峰网）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

返回资讯首页 >>

独瓜

更多 >

泰国被停职总理佩通坦就其涉嫌违宪案出庭作证
更新：2025-09-09 16:54
AI Infra 往事之异构计算篇：吴韧与他的学生们
更新：2025-09-09 16:51
周伯文：下一代大模型 OS，工具和语言缺一不可丨GAIR 2023
更新：2025-09-09 16:25
苹果发布多模态模型 Ferret
更新：2025-09-09 15:22

风汇全

更多 >

独家丨前阿里通义视觉负责人薄列峰，已加入腾讯混元团队
AI 科技评论独家获悉，原通义实验室应用视觉团队负责人薄列峰已加入腾讯混元大模型团队，直接向腾讯副总裁兼混元项目负责人蒋杰汇报。据悉，薄列峰在今年 4 月 30 日从阿里离任，彼时曾有传闻称他已加盟某 ...
当「养老」遇上 AI 大模型
作者：赖文昕编辑：陈彩娴鲜少有人关注到这样一个现象：在大模型的发展初期，「研发」与「产品」往往来自同一个群体——程序员。由于大模型技术的系统复杂，新一代大模型产品经理的数量稀少，程序员往往既是技术、又 ...
首场“解数Talk” 直播来了——大模型语料数据联盟开源数据集解读
一、解数Talk 介绍为帮助广大开发者更好地了解大模型语料数据联盟发布的AI大模型语料数据，沟通大模型企业在AI视角下的数据需求，不断服务大模型产业生态和落地应用，联盟发起单位上海人工智能实验室联 ...
DALL·E 3 推理能力炸裂提升，OpenAI 抢跑「ChatGPT 原生」
时隔一年半，OpenAI 直接玩了个大的，把文生图和 ChatGPT 做了结合，带着最新版本 DALL·E 3 来了。DALL·E 3 的巨大飞跃主要体现在两大方面。第一，只需要提示词，ChatGPT ...
探访阅兵训练场：以科学训练方法提升阅兵训练质效
随着中国人民抗日战争暨世界反法西斯战争胜利80周年纪念日临近，纪念活动的整体安排备受关注，其中的阅兵环节更是关注焦点。今年阅兵活动的整体设计是怎样的呢？跟随记者一起去了解一下。总台记者李迎新：在京郊的 ...
新能源时代，国产3D视觉「冲击」保守的汽车行业
在改革开放背景上成长起来的汽车产业，经历了飞速发展，但大量中外合资车企的涌入，也铸就了行业保守的底色，天然对国产供应商比较排斥。汽车制造业是机器视觉成熟应用的行业之一，但长期以来，国内传统燃油车产线上 ...
哀悼！中国计算机视觉领军者、商汤创始人汤晓鸥去世
12 月 16 日中午雷峰网获悉：上海人工智能实验室主任、商汤科技创始人、香港中文大学信息工程学系教授汤晓鸥去世。经多位独立信源确认，此消息属实，目前等待官方发布讣告。20世纪60年代末，汤晓鸥出生于 ...
SCOW 首次亮相 HPC China 2022，以算网融合助力“东数西算”工程发展
12月13日，以“新算力新赋能新未来”为主题的2022 CCF全国高性能计算学术年会CCF HPC China 2022）在线上正式召开。作为高性能计算领域全球最具影响力的三大超算盛会之一，大会邀 ...
独家丨盛大挖角代季峰，筹建新 AGI 公司对标 DeepSeek
AI 科技评论独家获悉，近日盛大网络挖角清华大学电子工程系副教授代季锋，正在筹备一家新的 AGI 公司，号称“对标 DeepSeek”，已有多位技术人才被猎头接触、介绍该团队的工作机会。目前，该项目正 ...
浪潮信息彭震：AI+是目标也是机会，要推动AI成为百行千业的生产力
去年以来，ChatGPT引爆了新一轮的AI浪潮，随后国内大模型进入“百模大战”的热闹中。如今，一年多过去，国内外的大模型开启了不同的叙事方式，OpenAI已在酝酿GPT5，继续探求通往AGI的路径，而 ...
刚刚，云天励飞上市！
ChatGPT的横空出世，重燃了人工智能赛道的火，一边是狂热投资者纷涌而至，一边是大国博弈下，国家战略层面的高度关注。最近，云天励飞CEO陈宁博士忙得不可开交，前脚接待了省级领导，后脚又赶去接待科技部 ...
黑客大会遇上元宇宙：极客精神的又一次狂欢
1993年的拉斯维加斯，18岁的 Jeff Moss 正准备面临一场悲伤的别离。他的一位黑客朋友由于爸爸工作调动即将离开美国，为了给这份友谊再留下些纪念，Jeff 决定给朋友办一个盛大的告别 Part ...