开云kaiyun体育和大多数郑重图像使用的屏幕宽高比不同-首页-开云真人(中国)有限公司
IT之家 4 月 10 日音信,苹果公司近日发布征询论文,展示了 Ferret-UI AI 系统,不错同一应用模范屏幕上的试验。

以 ChatGPT 为代表的 AI 大说念话模子(LLMs),其郑重材料频繁是文本试验。为了八成让 AI 模子八成同一图像、视频和音频等非文本试验,多模态大说念话模子(MLLMs)因此滋长而生。
仅仅现阶段 MLLMs 还无法灵验同一出动应用模范,这主要有以下几个原因:
1. 手机屏幕的宽高比,和大多数郑重图像使用的屏幕宽高比不同。
2. MLLMs 需要识别出图标和按钮,但它们相对来说齐比较小。
因此苹果构思了名为 Ferret-UI 的 MLLM 系统惩办了这些问题:
与当然图像比拟,用户界面屏幕的长宽比频繁更长,包含的关心对象(如图标、文本)也更小,因此咱们在 Ferret 的基础上加入了 "苟且离别率",以放大细节并期骗增强的视觉功能。
咱们尽心齐集了多数低级用户界面任务的郑重样本,如图标志别、查找文本和小部件列表。这些样本的模式齐是按照带有区域凝视的提醒来谋划的,以便于精准援用和接地。
为了增强模子的推明智商,咱们进一步编制了高档任务数据集,包括留心描写、感知 / 交互对话和功能推理。
苹果在论文中示意比拟较现存的 GPT-4V,以过火它 MLLMs 模子,Ferret-UI AI 模子更为优秀。





IT之家附上参考地址
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
告白声明:文内含有的对外跳转贯穿(包括不限于超贯穿、二维码、口令等面貌),用于传递更多信息,检朴甄选技能,遵守仅供参考,IT之家通盘著作均包含本声明。
]article_adlist--> 声明:新浪网独家稿件,未经授权辞谢转载。 -->