开云kaiyun体育和大多数郑重图像使用的屏幕宽高比不同-首页-开云真人(中国)有限公司

发布日期：2024-05-13 07:26 点击次数：143

IT之家 4 月 10 日音信，苹果公司近日发布征询论文，展示了 Ferret-UI AI 系统，不错同一应用模范屏幕上的试验。

以 ChatGPT 为代表的 AI 大说念话模子（LLMs），其郑重材料频繁是文本试验。为了八成让 AI 模子八成同一图像、视频和音频等非文本试验，多模态大说念话模子（MLLMs）因此滋长而生。

仅仅现阶段 MLLMs 还无法灵验同一出动应用模范，这主要有以下几个原因：

1. 手机屏幕的宽高比，和大多数郑重图像使用的屏幕宽高比不同。

2. MLLMs 需要识别出图标和按钮，但它们相对来说齐比较小。

因此苹果构思了名为 Ferret-UI 的 MLLM 系统惩办了这些问题：

与当然图像比拟，用户界面屏幕的长宽比频繁更长，包含的关心对象（如图标、文本）也更小，因此咱们在 Ferret 的基础上加入了 "苟且离别率"，以放大细节并期骗增强的视觉功能。

咱们尽心齐集了多数低级用户界面任务的郑重样本，如图标志别、查找文本和小部件列表。这些样本的模式齐是按照带有区域凝视的提醒来谋划的，以便于精准援用和接地。

为了增强模子的推明智商，咱们进一步编制了高档任务数据集，包括留心描写、感知 / 交互对话和功能推理。

苹果在论文中示意比拟较现存的 GPT-4V，以过火它 MLLMs 模子，Ferret-UI AI 模子更为优秀。

IT之家附上参考地址

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

告白声明：文内含有的对外跳转贯穿（包括不限于超贯穿、二维码、口令等面貌），用于传递更多信息，检朴甄选技能，遵守仅供参考，IT之家通盘著作均包含本声明。

]article_adlist--> 　　声明：新浪网独家稿件，未经授权辞谢转载。 -->