出品 | 微果酱(wjam123456)
作者 | 陈出木最近一段时间,谷歌的AI大模型进展吸引了不少关注。
但在大家都搓着手,试图等着看谷歌如何逆风翻盘的时候,AI大模型领域的霸主OpenAI再次传来重磅消息。
根据外媒The Information的报道,OpenAI即将推出多模态模型GPT-Vision,文章标题毫不客气地表明这是用来回击谷歌的。
虽然新版本还没有真正来,但是已经足以让我们窥见这个赛道的下一阶段竞争重点——多模态。
01#“GPT-5”进展到哪一步了?根据The Information的爆料,OpenAI正准备在GPT-4的基础上推出图像理解功能GPT-Vision。这相当于是在给GPT-4叠buff,挤牙膏式地完善它,反正目前公认的AI一把手还得是GPT-4。
此外,报道中还提到,OpenAI可能在GPT-Vision之后推出代号为“Gobi”的大模型。和GPT-4不同,所谓“更强大的”Gobi从一开始就是按照多模态模型去构建的。
外界把这个全新的大模型锁定为GPT-5的有力候选,因为大部分人并不相信此前OpenAI的首席执行官兼联合创始人Sam Altman在麻省理工学院活动中的辟谣:
我们现在没有训练,短期内也不会训练GPT-5。Sam Altman在麻省理工学院回应GPT-5传闻毕竟当时这段表态主要还是用来回应公开信《暂停AI巨型实验》。3月29日,包括特斯拉CEO埃隆·马斯克、苹果联合创始人Steve Wozniak、图灵奖得主Yoshua Bengio在内的数千位科技界人士联名呼吁,在6个月内暂停开发比GPT-4更为强大的AI系统,以留出时间解决AI的安全与伦理问题。
就在本月初,DeepMind联合创始人、现Inflection AI的CEO Mustafa Suleyman在一次访谈中表示自己认为OpenAI正在秘密训练GPT-5。Suleyman把多数人心里的猜测摆到了台面上,压力重新给到了OpenAI。
截图自访谈节目《CEO of Inflection AI Mustafa Suleyman on risks of artificial intelligence》不过现在谈论GPT-5或许还是太早了,因为OpenAI至今没有对相关消息作出回应。除了代号Gobi的全新大模型有可能是传言中的GPT-5,其余我们一概不知。甚至根据外媒消息,OpenAI似乎还没有开始训练Gobi。
相对来说,GPT-Vision的情况更加有迹可循。
目前有不少人猜测,GPT-Vision很可能是此前就在GPT-4的3月发布会上演示过的多模态功能。当时的GPT-4仅根据一张简单的手写草图就生成了网页代码,震惊全世界。
3月GPT-4发布会上的演示过程但在一时惊艳之后,除了提供给一家为盲人创造技术的公司Be My Eyes之外,功能更新和实际使用中都再没有这方面的信息,包括文生图等功能。
其原因或许可以从《纽约时报》7月的一篇报道中推断,OpenAI担心该功能可能被滥用于面部识别等方面。再结合Sam Altman此前辟谣时提及的,“OpenAI正在解决公开信中忽略的基于GPT-4的各种安全问题。”相关的安全顾虑或许已经有了解决方式。
也意味着,这种屏蔽很可能要迎来放开了。
按照The Information的说法,OpenAI希望以“GPT-Vision”的名义更广泛地提供图像理解,将为GPT-4打开许多新的基于图像的应用程序,例如生成匹配图片的文本等。
同时,还有传言称DALL-E 3也在开发中,可能会集成到ChatGPT或GPT-4中。其与GPT-Vision都可能在11月6日的OpenAI开发者大会上公布,因为OpenAI首席执行官Sam Altman曾经如此说道:
将会有“伟大的东西”,尽管没有GPT-4.5或GPT-5那么大。总的来说,虽然GPT-5还没来,但GPT-4要发力多模态,新一轮AI刷新科技观的热潮或许不远了。
02#OpenAI和谷歌较上劲了在这次对OpenAI新动作的报道中,中外媒体观点出奇一致,基本都认为是冲着谷歌的Gemini去的。
根据媒体9月14日援引三位直接知情人士消息称,谷歌已向一小部分公司提供了Gemini的早期版本,通过公司的云计算服务出售给企业,意味着谷歌考虑将其纳入消费者服务,Gemini的发布或许在即。
Gemini被称为谷歌的集大成之作,从今年4月就一直隐隐有消息传出,项目的参与者包括了原DeepMind创始人Demis Hassabis等大牛,谷歌创始人Segey Brin也亲自加入对Gemini的训练。
上个月底,SemiAnalysis的分析师Dylan Patel和Daniel Nishball曝光了更多相关消息。
根据现有信息,我们能够对Gemini有以下的认知:
1、初代Gemini应该是在TPUv4上训练的,且选择使用较少的芯片数量,以保证芯片的可靠性和热插拔。目前其已开始在TPUv5 Pod上训练,算力比训练GPT-4的要大 5 倍。
2、Gemini的训练数据库为Youtube上93.6亿分钟的视频字幕,总数据集大小约为GPT-4的两倍。
3、Gemini由一组大型语言模型组成,可能使用MOE架构与投机采样技术,通过小模型提前生成token传输至大模型评估,提高总推理速度。
4、Gemini支持聊天机器人、总结文本或生成原始文本(如电子邮件草稿、歌词或新闻文章)、生成原始图片等功能。
5、Gemini支持帮助工程师编写代码,谷歌希望其提高开发人员的代码生成能力,以追赶微软的GitHub Copilot代码助手,后者依赖于OpenAI。
6、谷歌员工还讨论过利用Gemini来实现图表分析等功能,比如要求模型解释图表的含义,及使用文本或语音指令来浏览网页或其他软件。
7、Gemini有不同大小版本,支持开发者购买简化版处理简单任务,足够小的版本可以在个人终端运行。
值得注意的是,相比GPT-4,Gemini有一个优势——除了网络公共信息外,还可以利用谷歌从其消费产品中获取大量专有数据。因此,有相关人士认为:
该模型在理解用户对特定查询的意图时应该会特别准确,而且它似乎会产生较少的错误答案(即幻觉)。尽管Gemini还没有真正登场,但已经有不少人表达了看好。在前面提及的Dylan Patel和Daniel Nishball的文章中,也有类似的观点:
The statement that may not be obvious is that the sleeping giant, Google has woken up, and they are iterating on a pace that will smash GPT-4 total pre-training FLOPS by 5x before the end of the year.(可能不太明显的说法是,沉睡的巨人Google已经苏醒,他们正在迭代,将在年底前将GPT-4预训练总FLOPS提高5倍。)我们可以发现,Gemini的每一项都在和GPT-4作比较,当然这是不可避免的情况。毕竟在ChatGPT横空出世之前,手握AI利剑的还是谷歌。
所以大众的共识都是——
The point here is Google had all the keys to the kingdom, but they fumbled the bag. (这里的重点是谷歌拥有王国的所有钥匙,但他们却弄丢了袋子。)基于此,谷歌也不得不更加努力,加速证明自己仍然能在AI一道上拿分。谷歌选择直接偷家,趁着OpenAI还没拿出真正的多模态模型之前,试图抢先在高地插上自己的旗子。当然,OpenAI并不打算放任谷歌追击,这也就有了此次的GPT-Vision和Gobi。
这也指出了下一阶段AI竞争的重点,便是各家正在内卷的多模态。毕竟文字形式的生成式AI已经毫无新鲜感,再智能也只能屈居于ChatGPT的荣光之下。
不过,发展至今日,AI的战场上已经不是两军对垒的局面了,谷歌和OpenAI不过是混战中较显眼的巨头。
同样需要盈利的这两者都在大模型的项目中加入了商业化的部分,比如对企业方的政策。但另辟蹊径的后来者meta,走的是开源的路子,一直在不断发布新功能,主打一个量多还免费。
很难评,大家会不会为了成本而选择meta。
可以说,现在的AI混战已经到了胶着的白热化阶段,下一个冲出来的会是谁,让子弹再飞一会儿吧。