kaiyun.com Gemini 卓绝 GPT-4 靠舞弊?谷歌承认:是的,演示视频经过了裁剪
kaiyun.com
整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)
谁能预见,整夜之间,东说念主们关于 的倡导竟发生了 180° 转念。
昨天,在 X 上展示 Gemini 原生技能的 6 分半钟视频下,简直是清一色的吟唱:
而到了今天,Gemini 如故阿谁 Gemini,但网友也曾不买账了:
发生了什么,才会让东说念主们的格调整夜转念?原因在于阿谁 6 分半的 Gemini 演示视频:它是假的,是经过裁剪的,甚而在被质疑后,谷歌还承认了!
Gemini 的视频演示遵守,是假的
信服看过 Gemini 演示视频的东说念主,多数王人对它的“多模态技能”印象潜入。举例,Gemini 看到一只鸭子从草图到填色的所有这个词进程,可实时给出证据注解和反馈,还能在换杯游戏中跟踪纸团、鉴识多样手势、再行陈设行星草图等——短短 6 分半的视频,Gemini 给东说念主的嗅觉是:仿佛不错实时不雅察周围全国并实时作念出反应,还能与东说念主类进行开放的语音对话。
关于 Gemini 如斯强大的技能,谷歌给出的证据注解是:Gemini 是 AI 的新品种,即“原生多模态”。
“咱们将 Gemini 盘算为原生多模态,从一初始就针对不同模式进行了预老师。然后咱们使用很是的多模态数据对其进行微调,以进一步完善其灵验性,这有助于 Gemini 从新初始无缝地领会和推理多样输入,因此远远优于现存的多模式模子。此外,Gemini 的多模态功能简直在每个界限王人是首先进的。”
听起来似乎有理有据,于是当一众网友王人千里浸于 Gemini 的强大、好奇它能否信得过卓绝 GPT-4 的时候,彭博社作者 Parmy Olsen 遽然发出了一个“不太调解”的声息:Gemini 的视频演示遵守,是假的。
一石激起千层浪!好在 Parmy Olsen 并莫得吊东说念主胃口,很干脆地将谷歌的空虚手法和根据全部公开:Gemini 并不可像视频中那样实时语音回答——它看到的仅仅视频片断中的静态图像,其语音也仅仅在读出东说念主类给它的文本指示,且反当令辰比视频中展示的要长。
背后的东说念主工指示进程,全部不详
举个例子,Gemini 演示视频中有一段识别动态手势的片断:通过不雅察左边阻挡变化的手势,Gemini 回答说念,“我知说念你在干嘛!你在玩石头剪刀布!”
这段视频乍看之下,你是不是觉得不错实时向 Gemini 展示不同的东西,并与它交流?但事实并非如斯:Gemini 仅支持文本交流,并不可进行语音对话。
根据谷歌公布的文档内容通晓,这段视频彰着是经过“加工”的:
(1)先给 Gemini 连接展示三张单个手势的图片,问它永诀看到了什么;
(2)再把三张手势图片沿途发给 Gemini,问它这是在干什么,并指示是一个“游戏”;
(3)通过以上一步步的指示和联接,Gemini 最终给出了谜底:你在玩石头剪刀布。
针对以上技能,一位谷歌发言东说念主证据注解说念:“为了测试 Gemini 在多样挑战中的技能,咱们通过捕捉摄像来制作演示。然后咱们使用摄像中的静态图像帧指示 Gemini,并通过文本进行指示。”
Parmy Olsen 将其肤浅翻译了一下:“谷歌拍下了那双手作念许多事情的画面,然后一张一张地向 Gemini 展示了这些镜头的相片。是以根柢莫得语音对话,而是跟 ChatGPT 和 Bard 相似的文本交流。”
此外,谷歌发言东说念主还补充称,用户的配音王人是从实验指示中选录的确凿内容,用于生成随后的Gemini输出松手——对此,Parmy Olsen 的翻译是:“你在视频悦耳到的声息,仅仅在诵读翰墨指示。”
也即是说,谷歌所展示的 Gemini 演示视频,是不详了所有联接指示、跳过了恭候反应的时辰、并用配音合成的最终松手。
王人是确凿的,仅仅“为了精真金不怕火”裁剪视频
虽然,Gemini 可能也的确作念到了在视频中展示的所有事情,但这两种发达面貌统统不同:
以翰墨面貌,通过东说念主工指示分技能径直展示其多模态遵守,关于 Gemini 的技能莫得过多修饰;
以视频面貌,经过裁剪、不详其背后多半联接进程的视频来呈现,极大显露了 Gemini 的实时高效。
由于 Parmy Olsen 的曝光,网友关于 Gemini 的格调瞬息改造,并发出了无数质疑。而关于被质疑作秀的这个视频,谷歌 DeepMind 探讨副总裁 Oriol Vinyals 今天给出了回话:
“视频中的所有用户指示和输出王人是确凿的,仅仅为了精真金不怕火起见进行了裁减。该视频展示了使用 Gemini 构建的多模态用户体验可能是什么形状,咱们制作该视频是为了激励竖立东说念主员的灵感。”
换句话说,Oriol Vinyals 承认 Gemini 演示视频经过了裁剪,原因是“为了精真金不怕火”。不论其裁剪初志是否的确仅仅为了“精真金不怕火”,但不得不说:在谷歌没明确证据视频经过裁剪之前,多数东说念主关于 Gemini 的速率、准确性以及与交互的基本模式,王人产生了歪曲。
淌若在这个视频伊始,谷歌就说“这是咱们探讨东说念主员测试过的 Gemini 交互的期许化发达”,那网友就会有神气预期:哦,那这个视频一半是现实,一半是期许化——但事实上,该视频的伊始是,“本视频重心先容了咱们与 Gemini 的一些好奇好奇互动”,因此东说念主们很难相识到这个视频中 Gemini 的发达是经过“加工”的。
网友:“这即是诞妄和误导”
于是预见之中,Oriol Vinyals 的回话并莫得受到网友的领会,其 X 帖子下多是质问谷歌诞妄、夸大营销:
“淌若你想激励竖立者,那为什么不发布确凿的内容呢?指示不可能既‘确凿’又‘裁减’,这即是诞妄和误导。”
如今的 AI 初创公司,不即是像你们这么夸张的演示来诈骗资金的吗?
“‘确凿,裁减’,的确吗?仅仅营销落幕。”
另外值得一提的是,还有网友指出,谷歌 Gemini 对比 GPT-4 的测试基准也并不交流:“在 MMLU 测试中,Gemini 底下有个灰色小字标 CoT@32,即使用了想维链指示手段、录取了 32 次中的最佳松手,GSM8K 的性能亦然用 Maj1@32 与 GPT-4 的 5-Shot CoT 进行对比的。”
那么关于谷歌宣称 Gemini 卓绝 GPT-4 的说法,你又有何倡导呢?
https://twitter.com/parmy/status/1732865415330529571
https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/
https://twitter.com/OriolVinyalsML/status/1732885990291775553