THE TAO JOURNAL.

我们离私有化的 GPT 有多远

Chat GPT 让去年偃旗息鼓的 AI 概念又卷土重来。”未来只有两种公司:AI 公司和不赚钱的”[1]等话术又开始在大众颅内绕梁三日、余音不绝。

眼尖的创业公司 CEO 不禁会想,如果咱把 Chat GPT 模型能够私有化部署卖给老土的刀耕火种的国企、政企,那又可以给投资人讲一个新故事,这可是一个全新的未来。

那么,我们离私有化的 GPT 有多远呢?

不出意料的话,半年内我们便可以在市面上看到创业公司私有化 GPT 的 POC,再迭代迭代给客户心理按摩按摩 “和客户一起成长”。如此一年半载,如果那时候 Chat GPT 还没退潮的话,就能有一个看起来真有点那么回事的私有化类 Chat GPT 模型诞生,并给它取一个国风名比如诸葛亮、管仲、颜回啥的。至于能堪大用否,何足道也。

一般来说,AI 模型私有化交付物包含:

1 训练好的 GPT 模型文件和参数

2 模型推理服务,包括赠送的 HTTP API 和 UI。

3 运行模型推理的 AI 服务器架构(一般使用私有云提供运行时)

4 [可选项] AI训练和推理芯片

目录

一 训练大模型

二 模型的交付

三 AI 大模型的演进

四 AI的影响以及个人如何应对

一 训练大模型

为了训练 GPT-3 级别的大模型会有哪些挑战?如何试它三大难题立七件大功才能摘得大模型的明珠呢?

总的来说会有以下挑战:

1 对庞大算力的需求

2 适应大规模算力与数据流的 AI 架构[2]

3 优质数据集的获取[3]

4 模型调优

如今各种 AI 模型对算力的需求越来越高,大约每两年算力需求要上升 15 倍。

衡量芯片算力一般使用 FLOPS(每秒浮点运算数)。据推算 GPT-3 模型大概需要 355 GPU 年。如果使用普通的家用显卡如 RTX 8000 (15 TFLOPS)则需要 655 年[4]。

2020 年推出的 GPT-3 模型,模型参数数量 1750亿,训练所需的算力为 310,000,000 PFLOPs。如今三年过去 OpenAI 最新推出的 GPT-4,虽然尚未公布参数,但外界普遍推测有至少 1 万亿参数。

ai-models-gpu-cost

表 1The amount of compute, measured in Peta FLOPs, needed to train SOTA models, for different CV, NLP, and Speech models, along with the different scaling of Transformer models (750x/2yrs);[5]

表格是常用模型所需的算力表:
ai-models-gpu-costs-table

可以看到,随着模型的参数和特征数量的增长,其训练所需算力也在同步增长。从某种程度上来说 AI 训练有一种暴力美学,如同刘慈欣《诗云》所写地一般。在巨大的算力面前,监督式机器学习模式已经没什么意义了,懂什么意思也不重要了,它不需要“理解”也不需要“懂你什么意思”。它不在乎。

如此大算力的需求,需要全新的 AI 训练架构。不是简单地把上千张 Nvidia A100 GPU 卡用 PCIe 线连起来就完事了(不仅买不到而且也连不起来)。从算子到训练框架、从训练框架到云原生分布式架构都需要作优化,以满足大规模 AI 模型训练的需要。

训练框架层面需要更换运行时 Runtime, 在 AI 云则需要对共享内存、 GPU 调度作出相应的优化。国内不少创业公司的算法工程师,在工程方面的理解还停留在“到处 print,在服务器上写代码编译运行”刀耕火种的阶段,的确需要提升一下知识水平。

另一方面训练大模型需要海量优质数据。OpenAI 的模型训练使用的语料、数据集相对来说更加优质。比如 Reddit 的高赞讨论,Pile 的数据集[6]… 所幸这些数据集是开源的,我们也可以使用。

而国内的语料则是 “注意看, 这个男人叫小帅…”的水准,很难不训练出一个杠精出来。

在翻过千重山万重障后,写好代码部署到最新的 AI 云架构后。准备来一杯咖啡,享受一下西西弗斯到山顶一览众山小的贤者时刻。静静地等待,如同太上老君炼丹经过七七四十九天的等待后,发现炼出来的模型是一个潘多拉魔盒,进入了失控。

这个训练出来的 AI 丝毫没有 “知之为知之,不知为不知”的谦虚,也没有对自我的内省,开始疯狂输出一些似是而非的答案,甚至还有一些言论风险。

模型调优(Fine Tuning)是不可避免的。模型调优如同让石头里蹦出的猴子开始吃斋念佛般温顺也不是件易事。

幸运的是由于 AI 模型的训练和推理算力需求不对等,模型的交付比训练的难度要低上几个数量级。如果对参数规模要求不多,在 Hugging Face 网站上已经有取之不尽的已经训练出来的模型。比如 GPT2-XL[7] 带有 15 亿参数的模型开箱即用(当然效果远没有 GPT-4 好)。

二 模型的交付

相比模型训练的困难,模型交付在技术上轻松一些,在人事上则复杂一些。

1 模型的评估与验收

2 标准化编排工具与可扩展的推理架构

3 集成原有的流程

如何评估 GPT 模型?一般人只能凭主观感觉。然而真正私有化落地时,通用 AI 看起来什么都能干,但是可能效果不能尽如人意。要想评估一个 AI 模型,必须选择具体的场景,而不是找到个锤子看哪都是钉子。

目前通用的 GPT 模型评估有如下几个通用场景:

1 翻译

2 阅读理解

3 问题回答

然而这些场景还是离企业实际使用有点距离,总不能让企业的员工天天和 AI 唠嗑,让AI 讲个笑话什么的。以往的 AI 模型都是以产品软件的一部分交付出去的,在隐蔽的角落里发挥作用。比如图片美化、文本摘要、图片识别、产品推荐…

当 AI 单独作为一个产品推出去的时候,情况则不一样了。国内不少私有化的 SaaS 产品就像是没有娘家的媳妇,起初的新鲜劲过去,则是望不到头的针线活。与其说是个媳妇,不如说是个长工。

一个 AI 产品可以说提高效率,可以说有创新,但是不能一来就说要重构业务、重构流程。毕竟人也要吃饭的嘛。你把人优化完了,谁来跟你签单?难道他们不知道他们的流程繁杂、人员冗余?多少声称提升企业协作效率、重构业务流程的 SaaS 沦为 Excel 的导入和导出工具?

一个 AI 模型即使是标准化交付、云原生的 AI 推理服务,都需要与原有的业务打通。

如何打通呢?

三 AI 大模型的演进

OpenAI 的插件化[8]思路可以作为借鉴。插件如同一个产品 Open API,是产品价值的延伸。下次导入 Excel、作图、生成透视表这种工作可以轻松让 AI 运行。

编程不再被那些神秘的程序员所垄断,而是成为普惠的人皆能享的服务。

插件化的 AI 将演变为一种新的操作系统。这个操作系统使用的人越多,为其编程的开发者也就越多。

插件运行所需的算力也许可以使用以太坊 Token Economics[9]来进行分配,插件的每一次运行都会消耗一些算力 Gas, 而插件所能带来的收益以 Token 来回报。由此解决 AI 插座与开发者插件的分润问题。

大模型AI 的演进不止于插件化,也会多模化。现在是文字,以后加入对语音、视频、图片的支持,甚至于阿猫阿狗的汪汪喵喵声也能作为输入。

既然上帝创造了多语言,那么人类就要建造巴别塔。

四 AI的影响以及个人如何应对

AI 像一个神奇的杠杆,遇强则强,遇弱则弱。很多人都认为这是世界的奇点,这不无道理。稍懂经济学的人会宣称 XX 未来 3 年即将失业。没错,如果每个人的生产力都乘了一个系数,那不就产能过剩了吗?产能过剩的结果 - 失业率上升,万物萧条的经济危机。对于产能过剩的问题,也不是完全没有办法。其一是产能输出到其他国家。其二则是信贷,通过膨胀的信贷消费多余的产能,将今天的问题转移到未来,以时间换空间。其三则是产业升级或转型。可以想象,在生产力空前提升的情况下,对服务的需求则是会上升的。按照萨伊定律,供给会创造需求,人的欲望无止境(除非这是一个老龄化社会)。

对个人来说,拥抱 AI、拥抱开源是条光明的路。另一条路则是你要走窄门,知道 AI 的弊端与弱点并进行避免。目前的生成式 AI 弱点包括但不限于[10]:

1 内容有可能似是而非,即一本正经地胡说八道。

2 内容可能有害

3 有时候无法区分事实与观点,没有逻辑

4 输出不稳定,一些 prompt 轻微的变动会产生截然不同的答案

如果罔顾 AI 的上述弱点而滥用的话,使用如今 AI 强大的生产力,互联网内容则有可能产生劣币驱逐良币的后果,然后 AI 又进一步使用错误的互联网内容进行训练,最后陷于人类记忆的一潭死水。

即使 AI 能够生成所有作品,但总需要有个人把好作品挑出来,比如从无穷多的作品里挑出莎士比亚的《麦克白》,让三个女巫呼风唤雨,告诉人类命运的结局。

参考:

[1] TCS《2017年全球趋势年度报告》

[2] How Microsoft’s bet on Azure unlocked an AI revolution

[3] Language Models are Unsupervised Multitask Learners

[4] https://news.ycombinator.com/item?id=34337283

[5] AI and Memory Wall

[6] https://pile.eleuther.ai/

[7] https://huggingface.co/gpt2-xl

[8] https://github.com/openai/chatgpt-retrieval-plugin

[9] https://www.oreilly.com/library/view/what-is-the/9781492072973/ch01.html

[10] https://cdn.openai.com/papers/gpt-4.pdf