首页-开云真人(中国)有限公司

开云kaiyun体育和大多数郑重图像使用的屏幕宽高比不同-首页-开云真人(中国)有限公司

发布日期:2024-05-13 07:26    点击次数:143

IT之家 4 月 10 日音信,苹果公司近日发布征询论文,展示了 Ferret-UI AI 系统,不错同一应用模范屏幕上的试验。

以 ChatGPT 为代表的 AI 大说念话模子(LLMs),其郑重材料频繁是文本试验。为了八成让 AI 模子八成同一图像、视频和音频等非文本试验,多模态大说念话模子(MLLMs)因此滋长而生。

仅仅现阶段 MLLMs 还无法灵验同一出动应用模范,这主要有以下几个原因:

1. 手机屏幕的宽高比,和大多数郑重图像使用的屏幕宽高比不同。

2. MLLMs 需要识别出图标和按钮,但它们相对来说齐比较小。

因此苹果构思了名为 Ferret-UI 的 MLLM 系统惩办了这些问题:

与当然图像比拟,用户界面屏幕的长宽比频繁更长,包含的关心对象(如图标、文本)也更小,因此咱们在 Ferret 的基础上加入了 "苟且离别率",以放大细节并期骗增强的视觉功能。

咱们尽心齐集了多数低级用户界面任务的郑重样本,如图标志别、查找文本和小部件列表。这些样本的模式齐是按照带有区域凝视的提醒来谋划的,以便于精准援用和接地。

为了增强模子的推明智商,咱们进一步编制了高档任务数据集,包括留心描写、感知 / 交互对话和功能推理。

苹果在论文中示意比拟较现存的 GPT-4V,以过火它 MLLMs 模子,Ferret-UI AI 模子更为优秀。

IT之家附上参考地址

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

告白声明:文内含有的对外跳转贯穿(包括不限于超贯穿、二维码、口令等面貌),用于传递更多信息,检朴甄选技能,遵守仅供参考,IT之家通盘著作均包含本声明。

]article_adlist-->   声明:新浪网独家稿件,未经授权辞谢转载。 -->



Powered by 首页-开云真人(中国)有限公司 @2013-2022 RSS地图 HTML地图

渝ICP备2020014457号-2