OpenAI不open,开源与否如何影响科技产业发展?
最近几个月,ChatGPT真可说是风头无两,不仅以五天破百万,两个月上亿的速度刷新了APP用户增速最快的纪录,还引起全球对AI与相关产业前所未有的关注热度。在与ChatGPT斗智斗勇,互相博弈的过程中,也有许多企业或第三方开发者利用API将ChatGPT集成到他们的网站、产品和服务中。本月14日,随着GPT-4的上线,就在粉丝们欢呼雀跃之余却也有人发现GPT-4不开源。随后OpenAI首席科学家发言表示“开源并不明智,我们之前错了”证实此事,原来OpenAI并不open,甚至还有人拿出了当初OpenAI成立时的宣言讽刺,马斯克对此事也或多或少的表示过不满。
那么要发展科技及产业,开源与否究竟谁是更好的选择?这个争论早已有之,迈出探索步伐的先驱也为数不少,今天就以旁观者的视角来对比一下他们各自的选择,以及对各自领域和产业产生的影响。
01约翰·卡马克与图形引擎
1991年2月1日,四个才华横溢又囊中羞涩的年轻人成立了一家公司id Software,他们中既有一流的黑客,又有骨灰级玩家,其中最耀眼的当属两位约翰,约翰-卡马克(John Carmack)与约翰-罗梅洛(John Romero)。尤其卡马克,他是个堪称惊才绝艳的极客,就连比尔·盖茨也承认卡马克与乔布斯一样,都是他心中为数不多堪称天才的人。也正是两位约翰联手打造的《德军总部3D》(Wolfenstein3D)《毁灭战士》(DOOM)《雷神之锤》(Quake)等一系列里程碑式的游戏,一次又一次的推动了图形技术的发展。大约1993年时,喜欢跑车的卡马克将他自研的图形程序命名为“图形引擎”,由此开创了一个全新的产业,这个概念也延用至今并发展出了多个品牌。
粉丝以二人游戏的风格制作的卡马克(左)和罗梅洛(右)形象。如果将电脑图形技术比拟成一辆车,毫无疑问是他们二人共同驱动前行的。其中卡马克可视为引擎,罗梅洛则可视为车轮,二人互相成就,共同吹响了一个新时代的号角。
卡马克将自己的图形引擎称为“雷神引擎(Quake)”,现在这款引擎叫做id TECH。虽然卡马克在1991年id公司成立后就开始自研图形引擎了,但真正将其开发为程序则是在1996年的《雷神之锤》中,之前的只能算是图形代码。《雷神之锤》发售后一如既往的火遍世界,还因为自身图形技术的突飞猛进带动PC和显卡也开始以惊人的速度换代淘汰,甚至有不法商贩趁机打出“可流畅运行《雷神之锤》”的广告囤积居奇。可卡马克不负天才之名,硬是凭一己之力将雷神引擎优化到了亲民的程度;还积极获取运营商的反馈,以惊为天人的代码能力构筑了网络补偿机制,让全球粉丝在网络不发达的90年代也能流畅对战,这也就是现在大火的电竞初生时的模样。
如前所述,卡马克不仅是技术天才,也是顶级黑客。他从小就坚持“反软件专利主义”,认为科技发展不应该被人为的设置壁垒,科技成果不应商业化。因此在开办id公司,自研图形引擎后,每隔几个月卡马克就会把前一段的成果公开到网上。不仅是图形技术,还有自己游戏的代码他都毫无保留,这直接使得当时的游戏市场很快就充斥着同类型游戏。电脑图形引擎在90年代初还是非常小众冷门,在90年代末就能发展成全球流行的热门产业,前后时间跨度还不到十年。当时除了罗梅洛,id公司内都反对这种行为,但卡马克是公司的主心骨,他想干的事又有谁能拦得住?客观来看,这种行为的确让游戏和图形技术业界在不到十年的时间里就获得了野蛮式发展,玩家们不费多大劲就能玩到不同的游戏,或者自己动手开发新游戏自然是乐在其中。但站在专业技术和软件的角度来说,这种行为无异于釜底抽薪式的鼓励盗版。因此,虽然卡马克在全球的粉丝数以亿计,但真正响应他这种做法的却是寥寥可数。
02奥尔特曼与GPT
GPT全称Generative Pre-trained Transformers,译为“基于转换器的生成式预训练模型”,是一种衍生自“转换器架构”的自然语言生成模型,微调后即可完成许多任务,如文本生成与回答、图像与视频生成、编写代码、写作论文、创作影视剧、设计科学实验等等。GPT名称中的“预训练”指的是在大型文本语料库上进行的初始训练过程,其中模型学习预测文章中下一个单词,这为模型在限量的任务与特定数据的下游任务中表现良好提供了坚实的基础。
刚才说过GPT系列由“转换器架构”衍生而来,这种架构本质上是采用“注意力机制”的深度学习模型,可以根据输入数据各部分重要性的不同而分配不同的权重,主要用于自然语言处理(NLP)与电脑视觉(CV)领域。该架构于2017年由谷歌首次提出,与之前已使用了三十多年的“循环神经网络”一样,旨在处理自然语言等“顺序输入数据”(此处语言专指书面语)。与“循环神经网络”一次只能处理一个单词不同,“转换器架构”采用的注意力机制可以为输入序列中的任意位置提供上下文,因此可以进行更多的并行计算,并节约训练时间,这是很大的进步。
2018年6月11日,OpenAI发表了一篇题为《通过生成式预训练提高语言理解能力》的论文,其中首次提出GPT概念。当时表现最好的自然语言生成模型几乎都是监督型学习模型,但这种模型的客观限制很多很大,许多生僻语言也因缺乏足够建立起语料库的文本资料而造成实际应用(如翻译和解释)上的困难。此外,训练超大模型所需的时间和资金成本也非常高昂。有鉴于此,GPT提出了“半监督”(后来普遍称为“自监督”)的方法:先在没有标注的数据上面训练一个预训练模型,再在少量标注的数据上面训练一个可分辨的微调版模型。GPT系列发展至今,最明显的变化在于内部的参数量和水涨船高的体量。一代参数量约1.2亿(4.5GB),二代约15亿(40GB),三代约1750亿(570GB)。现在最新款GPT-4的参数量据说有100万亿,不过已经被OpenAI的CEO奥尔特曼驳斥为“完全是胡说八道”,但他也没透露具体数量。
不论奥尔特曼怎么说,他都不是卡马克,更不可能有“反软件专利主义”或类似的想法。ChatGPT也不是开源产品,虽然提供API允许其他企业或第三方用户将其集成到他们的产品中,但认可开源的粉丝数明显更多,虽然其真实想法或用意难以揣测。相信一定会有人说“GPT-4不开源是为了保证长期盈利”等等,这种说法不能说没有道理,OpenAI也不是慈善组织。或许可以想的更糟糕一点,GPT-4不开源导致很多企业赖以为生的抄袭失去了活路,对偷别人成果还嫌别人小气的人来说,这真的像狐狸吃不到葡萄时说的话。当然也可能OpenAI对人心人性洞若观火,他们很清楚一旦开源将导致怎样的后果。
03开源与否,究竟谁更胜一筹?
从社会和历史的进程来说,任何科技成果都需要转化为产品,特别是普通人触手可及的产品才有意义,否则再先进的科技都与空中楼阁无异。这么说来产品化是有利于科技发展的,那么在这一进程中就不可避免的要遇到究竟要不要开源的问题。现在回过头来看,不论卡马克还是奥尔特曼,他们的做法都不能用“对”或“错”这种简单的标准来衡量,应该结合他们所处的环境、时代等客观条件来综合评定,或者说“存在即合理”。那么他们的境遇又有何不同呢?
首先,二者的产品属性不同。游戏天生就自带娱乐属性,纵使吸引成千上万的粉丝入局也可能只是扶植对手,客观上说反倒是促进产业繁荣,把产业做大做强,没人会把它上升到“生产力”的高度。GPT-4则不同,它从上线前就引起很多人的不安,而且对很多人而言,GPT-4的知识储备与推理能力真的非常强大,说它是生产力工具并不夸张。
其次,二者的技术属性不同。id公司赖以为生的是卡马克开发的图形引擎技术,而且卡马克本人又是个顶级天才,基本在创业后每隔几个月就能有成果问世。OpenAI则是一群技术专家集合到一起,工作了几年才有一些产品问世,而且大部分都受众很窄,真正能让普通人触手可及的仅有DALL-E和ChatGPT。与之相比,id公司图形技术的受众领域明显宽广得多。虽然说都是从无到有,但图形技术与GPT技术的难度明显不在一个维度上,这也是不能回避的事实。
再次,二者的公司本身不同。id公司从一开始的目标就是依靠高精尖技术盈利,在90年代中期就能达到千万美元级的年盈利规模;OpenAI在2019年时转为有限盈利属性,现在可以达到3500万美元左右的年盈利。还有点不易察觉的在于公司规模,说来有点令人难以置信的,id公司能在几十年前就取得如此耀眼的成就,有个重要原因是人少,组织极致精简。你没看错,整个id公司员工以不到15人的规模维持了很长一段时间,而这又是因为卡马克一贯的坚持。卡马克始终觉得公司规模与产品质量无关,因此几个人就能做好的事情没必要发展壮大公司。对比OpenAI,id更像是个小作坊,尽管它的成就已经远远超出了小作坊的规模。
此外二者还有所处时代,客户群体等诸多不同,这里面大部分很多人都有切身体会不再赘述,只是说了一些显而易见又经常被忽视的区别。了解过这些后再看卡马克与奥尔特曼的选择,有没有觉得其实都挺合理?都是二者对所处时代,对自己技术采取的正当态度。前面说过“存在即合理”,对他们的选择不能以简单的“对”或“错”等简单的标准来衡量。不如站在更高的维度上看,他们都是为科技及产业的发展做出自己应有的贡献,只是程度不同而已。
- 0000
- 0000
- 0000
- 0000
- 0002