{label:top}
首页 >> 风台视> 正文

苹果发布多模态模型 Ferret

来源:风台视发布时间:2025-09-09 08:28:00
浏览:83218


编译 | 赖文昕

编辑 | 陈彩娴


大模型的苹果诞生,让科技巨头与创业公司们在新一轮的发布竞赛中再次鸣枪出发,OpenAI、多模Anthropic、态模Mistral等创业之星的苹果升起更是证明了在新工艺的作用下,大厂并不存在绝对的发布郑州医科大学门事件下载优势。

不久前,多模苹果叫停了启动十多年且投入数十亿美元的态模自动驾驶电动汽车项目,美国总部裁员了600多人,苹果另有近2000名员工转到AI部门。发布

然而,多模在目前市场上的态模主流智能手机品牌中,苹果几乎是苹果唯一一家尚未正式推出大模型的厂商。长期处在领头羊地位的发布苹果,似乎在大模型这一局中罕见地落后了。多模

4月8日,苹果发表了一个名为“Ferret-UI”的武汉高中泄露价格新工作,这是一个能“看懂”手机屏幕上并能执行任务的多模态模型,专为增强对移动端 UI 屏幕的理解而定制,配备了引用(referring)、定位(grounding)和推理(reasoning)功能。


苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

论文链接:https://arxiv.org/pdf/2404.05719.pdf

半年前,苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力,而“Ferret-UI”则是更聚焦移动端、关注客户交互。

研究团队认为,Ferret-UI 具备了解决现有大部分通用多模态大模型所缺乏的理解客户界面 (UI) 屏幕并与其有效交互的能力。


UI 任务表现超越GPT-4V

将重点放在 UI 后,Ferret-UI 有何亮点呢?

苹果的团队比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任务上的性能,并在高级任务上将开源的 UI 多模态模型 Fuyu 和 CogAgent 也纳入对比之中。

首先是基础的 UI 任务性能测试。

Ferret-UI 在大多数基础 UI 任务上都展现出了优越的性能,尤其是在与iPhone相关的任务上,除了“查找文本”任务外,它在所有任务上都超过了Ferret和GPT-4V。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

在OCR(光学字符识别)、图标识别和控件分类等基础 UI 任务上,Ferret-UI 的平均准确率分别为72.9%、82.4%和81.4%,远超 GPT-4V 的平均准确率,后者分别为47.6%、61.3%和37.7%。

在安卓任务上,GPT-4V 的性能显著下降,特别是在定位任务上,这可能是因为安卓屏幕上的小部件更多且更小,使得定位任务更具挑战性。

值得一提的是,在OCR任务中,模型预测的是目标区域旁边的文本,而不是目标区域内的文本。这对于较小的文本和非常靠近其他内容的文本来说很常见。

而 Ferret-UI 却能够准确预测部分被切断的文本,即使在OCR模型返回错误文本的情况下也是如此。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

在查找文本、查找图标和查找控件等定位任务上,Ferret-UI也展现出了优越的性能。

而在高级 UI 任务性能的比拼中,Ferret-UI 同样表现优秀。在详细描述(DetDes)、感知对话(ConvP)、交互对话(ConvI)和功能推断(FuncIn)等高级任务上,Ferret-UI 展现了与 GPT-4V 相当的性能,并且在某些任务上超过了GPT-4V。

而与开源UI多模态模型 Fuyu 和 CogAgent 相比,Ferret-UI 在大多数任务上均实现超过。特别是在 iPhone 平台上,Ferret-UI 的性能得分显著高于 Fuyu 和 CogAgent。

而且,尽管 Ferret-UI 的训练信息集没有包含特定的安卓信息,但它在安卓平台的高级任务上仍表现出了可观的性能,表明了模型具有在不同操作系统间的 UI 知识迁移能力。


Anyres 工艺解决屏幕长宽比各异难题

那么,Ferret-UI 是如何做到在多项 UI 任务中表现出色的呢?

Ferret-UI 的一个关键创新是在 Ferret 的基础上引入了“任何分辨率”(any resolution,简称anyres)工艺。这项工艺是为了解决移动设备 UI 屏幕长宽比多样化的问题而提出的。

虽然 Ferret-UI-base 紧密遵循 Ferret 的架构,但 Ferret-UI-anyres 加入了额外的细粒度图像特征,尤其是一个预训练的图像编码器和投影层为整个屏幕生成图像特征。

对于根据原始图像长宽比获得的每个子图像,都会生成额外的图像特征;对于具有区域引用的文本,一个视觉采样器会生成相应的区域连续特征。

大型语言模型(LLM)则使用全图表示、子图表示、区域特征和文本嵌入来生成响应。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

Ferret-UI-anyres架构

不过,Anyres 工艺有何特别之处?

传统的模型可能需要固定大小的输入,但手机等移动设备的屏幕大小和长宽比各异,显然给模型的输入带来了挑战。

为了适应这一点,Ferret-UI 将屏幕分割成多个子图像,这样可以对每个子图像进行放大,从而捕捉到更多的细节。

具体来说,对于每个基于原始图像长宽比获得的子图像,都会生成额外的图像特征。对于具有区域引用的文本,视觉采样器会生成相应的区域连续特征。

这种方法不仅适用于不同长宽比的屏幕,还提高了模型对UI元素的细节识别能力,能够突出显示屏幕上的小型对象,如图标和文本,对于提高模型的识别和定位精度至关关键。

另外,苹果研究团队还设计了一个分层次的实验方法,从简单到复杂,以逐步提升 Ferret-UI 模型的能力。

从基础的识别和分类任务开始,Ferret-UI 模型建立了对 UI 元素的基本理解,学会了识别和分类 UI 元素,为处理更复杂的任务打下基础。

接着逐步过渡到需要更高层次理解的对话和推断任务。随着模型能力的提高,任务变得更加复杂,要求模型不仅要识别 UI 元素,还要理解它们的功能和上下文。高级任务的设计为模型提供了必要的背景知识和理解能力,使其能够处理复杂的UI交互。

分层次的任务设计不仅有助于模型逐步学习,还能够确保模型在面对更复杂的 UI 交互时具有足够的背景知识和理解能力。通过这种方式,Ferret-UI 能够更好地理解和响应客户的指令,提供更加准确和有用的交互。

从基础的识别和分类到高级的描述和推断,Ferret-UI 在面对真实世界中的UI交互时,能够提供准确和有用的响应。再结合 anyres 工艺处理不同分辨率的屏幕,进一步增强了其在实际应用中的有效性和客户体验。


结语

面对当下激烈的大模型“厮杀”,科技巨头们亟需思考如何对市场战略和产物进行与时俱进的布局,苹果自然也不例外。

无论是Ferret-UI、Ferret-UI的前身 Ferret 还是旨在改善与语音助手交互的ReALM,苹果正一步步推进着能够读取屏幕信息的模型研究。

Ferret-UI 能够在移动设备上提供高质量的UI理解和交互,但它能否成为一个强大的工具,促使 iPhone 引入 AI,让苹果从稍显落后的境地反超呢?

让我们拭目以待。


雷峰网(公众号:雷峰网)本文作者 anna042023 将持续关注AI大模型领域的人事、企业、商业应用以及行业增长趋势,欢迎添加交流,互通有无。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

风谈快

更多 >
  • PPIO亮相WAIC 2025,重磅推出Agentic AI基础设施服务平台
    更新:2025-09-09 08:03
  • 泰国被停职总理佩通坦就其涉嫌违宪案出庭作证
    更新:2025-09-09 07:04
  • 出身“企鹅”的“T4大神”,带领小鹅通闯关港交所
    更新:2025-09-09 06:58
  • PPIO亮相WAIC 2025,重磅推出Agentic AI基础设施服务平台
    更新:2025-09-09 05:54

热门文章

  • 马斯克因“百万美元抽奖”再面临诉讼
    马斯克因“百万美元抽奖”再面临诉讼

    马斯克因“百万美元抽奖”再面临诉讼

    当地时间8月20日,美国一名联邦法官要求马斯克必须对一起涉及“百万美元抽奖”的集体诉讼应诉。亚利桑那州选民杰奎琳·麦卡弗蒂作为代表提起集体诉讼,指控马斯克及其创建的“美国政治行动委员会”在2024年大 ...

  • 马斯克因“百万美元抽奖”再面临诉讼
    马斯克因“百万美元抽奖”再面临诉讼

    马斯克因“百万美元抽奖”再面临诉讼

    当地时间8月20日,美国一名联邦法官要求马斯克必须对一起涉及“百万美元抽奖”的集体诉讼应诉。亚利桑那州选民杰奎琳·麦卡弗蒂作为代表提起集体诉讼,指控马斯克及其创建的“美国政治行动委员会”在2024年大 ...

  • 美大豆协会呼吁尽早同中国达成协议缓解豆农危机
    美大豆协会呼吁尽早同中国达成协议缓解豆农危机

    美大豆协会呼吁尽早同中国达成协议缓解豆农危机

    美国大豆协会主席凯莱布·拉格兰19日致信美国总统特朗普表示,美国大豆种植户正面临“极大的”财务压力。随着收获季迅速到来,美国就大豆出口与中国越晚达成协议,美国豆农受到的冲击就越严重。拉格兰在信中写道: ...

  • 巴基斯坦季风暴雨已致750人死亡
    巴基斯坦季风暴雨已致750人死亡

    巴基斯坦季风暴雨已致750人死亡

    巴基斯坦国家灾害运营局20日说,过去24小时,强季风降雨引发的灾害造成该国至少43人死亡、11人受伤。自6月26日进入雨季以来,季风暴雨已在巴全国范围内造成750人死亡。据巴国家灾害运营局最新发布的统 ...

  • 波兰防长:东部发现的不明物体为俄军用无人机
    波兰防长:东部发现的不明物体为俄军用无人机

    波兰防长:东部发现的不明物体为俄军用无人机

    △波兰国防部长科西尼亚克-卡梅什当地时间8月20日下午,波兰国防部长科西尼亚克-卡梅什称,在该国东部卢布林省一处农田坠落并爆炸的不明物体是一架俄罗斯无人机,并且波兰的雷达系统“没有探测到此次领空侵犯行 ...

  • 电影中的抗战——华中根据地新四军铁骨战强敌
    电影中的抗战——华中根据地新四军铁骨战强敌

    电影中的抗战——华中根据地新四军铁骨战强敌

    全连82人全部壮烈殉国!1943年,为抵抗日伪军的扫荡,新四军的一个连队在苏北抗日根据地的刘老庄浴血奋战,全连82名勇士全部壮烈殉国。今天我们就结合《刘老庄八十二壮士》这部电影,回顾新四军战史上这场极 ...

  • WRC 观察丨VLA 能带来融资,但不能带来收入
    WRC 观察丨VLA 能带来融资,但不能带来收入

    WRC 观察丨VLA 能带来融资,但不能带来收入

    “具身智能公司招聘的销售岗,比去年增长了近两倍。”2025年WRC比之往年更加人潮汹涌。这个风口上的行业透出的一隙金光吸引了无数“掘金者”——闻风而至的不止有机器人公司,还有行业猎头。有关具身智能量产 ...

  • 黄杨钿甜复出了,劣迹艺人的标准究竟是什么?
    黄杨钿甜复出了,劣迹艺人的标准究竟是什么?

    黄杨钿甜复出了,劣迹艺人的标准究竟是什么?

    8月20日,搜狐娱乐一条视频,把“天价耳环”事件中的黄杨钿甜重新推到了舆论的聚光灯下。画面中,她在横店拍摄《冰湖重生》,粉丝仍然温声喊着“宝宝,好久不见”。要知道,就在几个月前,她还是“天价耳环”事件 ...

风台新

更多 >
  • 唐嫣罗晋:很相爱,但选择各自精彩
    唐嫣罗晋:很相爱,但选择各自精彩

    来源:黎兜兜作者丨薇刊编辑部.兔兔来源 | VIKAN薇刊ID:kawa01)唐嫣与罗晋的爱情故事一直被视为娱乐圈的典范,从2016年高调宣布恋情到2020年迎来女儿"小小糖",他们的婚姻始终低调而稳 ...

  • 波兰防长:东部发现的不明物体为俄军用无人机
    波兰防长:东部发现的不明物体为俄军用无人机

    △波兰国防部长科西尼亚克-卡梅什当地时间8月20日下午,波兰国防部长科西尼亚克-卡梅什称,在该国东部卢布林省一处农田坠落并爆炸的不明物体是一架俄罗斯无人机,并且波兰的雷达系统“没有探测到此次领空侵犯行 ...

  • 今日最佳:我到底有多帅?
    今日最佳:我到底有多帅?

    来源微博:@迷惑行为大赏有一说一,长得太精致了。 ...

  • AI 颠覆的第一个职业是程序员?丨GAIR Live
    AI 颠覆的第一个职业是程序员?丨GAIR Live

    当 AI 大模型飞速进化,最先被卷入洪流的,不是写作画画或运营,而是程序员。过去几年,从 GitHub Copilot 开始,到 Cursor、Codeium、Claude Code,再到各类 Age ...

  • 即日起,江苏苏州取消市区范围内新建商品住房2年限售
    即日起,江苏苏州取消市区范围内新建商品住房2年限售

    为进一步满足居民改善性住房需求,即日起,取消苏州市区范围内新建商品住房取得不动产权登记证书满2年方可转让的限制措施有特殊限制转让要求的住房除外)。来源:苏州住建)相关新闻70城最新房价出炉,国家统计局 ...

  • PPIO亮相WAIC 2025,重磅推出Agentic AI基础设施服务平台
    PPIO亮相WAIC 2025,重磅推出Agentic AI基础设施服务平台

    7月26日至29日,中国领先的独立分布式云计算服务商PPIO亮相2025 世界人工智能大会暨人工智能全球治理高级别会议WAIC)。PPIO联合创始人兼CEO姚欣在WAIC活动上重磅发布了国内首个Age ...

  • 北约举行成员国防长会 确认支持乌克兰
    北约举行成员国防长会 确认支持乌克兰

    当地时间8月20日下午,北约32个成员国国防部长举行影片会议讨论乌克兰保障保障问题。北约军事委员会主席朱塞佩·卡沃·德拉贡在会议结束后表示,北约成员国确认支持乌克兰。北约的优先事项仍然是实现公正、可信 ...

  • 陆虎陈曌旭首次合体大片甜度超标,他们的爱情咋这么好“磕”!
    陆虎陈曌旭首次合体大片甜度超标,他们的爱情咋这么好“磕”!

    甜蜜对视、默契互动,陆虎和陈曌旭的首次时尚合体拍摄简直就是大型撒糖现场!《时尚芭莎珠宝》八月刊迎来了一对特别甜蜜的CP——陆虎和陈曌旭嘘嘘)。这是俩人首次合体拍摄时尚大片,现场工作人员透露:“整个拍摄 ...

  • 泰国被停职总理佩通坦就其涉嫌违宪案出庭作证
    泰国被停职总理佩通坦就其涉嫌违宪案出庭作证

    当地时间21日,泰国被停职总理佩通坦就其涉嫌违宪一案在宪法法院出庭作证。当天泰国宪法法院传唤佩通坦本人及国家保障委员会秘书长出庭。根据泰国宪法法院的安排,此次传唤佩通坦出庭作证,属于审理案件的关键环节 ...

  • 专访宗馥莉:我不会因为风波改变方向
    专访宗馥莉:我不会因为风波改变方向

    来源:财经杂志编辑|杨立赟2025年7月13日,娃哈哈创始人家族的继承之战,被推到聚光灯下。被外界视为宗庆后“独女”的宗馥莉,被三名自称“同父异母的弟妹”在香港和杭州的法院起诉,涉及21亿美元巨额离岸 ...

  • 商务部:将于9月出台扩大服务消费的若干政策措施
    商务部:将于9月出台扩大服务消费的若干政策措施

    来源:财联社财联社8月27日讯,国务院新闻办公室今日上午10时举行新闻发布会,请商务部副部长盛秋平、北京市副市长司马红介绍中国服务贸易发展和2025年服贸会筹备工作进展情况,并答记者问。系列促进服务出 ...

  • 流行歌手“霉霉”官宣订婚,特朗普回应
    流行歌手“霉霉”官宣订婚,特朗普回应

    据美国福克斯新闻网、美国广播公司消息,当地时间8月26日,美国知名歌手泰勒·斯威夫特官宣与橄榄球运动员特拉维斯·凯尔西Travis Kelce)订婚。两人当天在社交媒体平台联合发帖称:“你的英语老师和 ...

趣秀一场金融“维权”官司背后
风点集近东救济工程处:加沙营养不良儿童数量急剧增加
料点星星眼要跟美瞳小花再婚了
风报事广西桂林一公司车间发生设备爆炸事件,致1死7伤
趣台外交部:敦促新西兰有关部门停止散布谎言制造矛盾
话站二字弟弟分手了?于正封杀新人?童瑶忙应酬?毕雯珺新戏水?姨太问答

深报

更多 >