GPT的野望

耗子万岁 · 发表于 2020-12-24 03:17:40

GPT的野望

现在，ML 范畴公号也卷得锋利，最早我 reddit 灌灌水，邮件看看，就有东西写了也不怕重，如今根本上能第一眼看到的东西肯定还没动手大号们就发完了。

前段时间 DALL·E 刚出，果然还没动手写，无数文章就给先容完了。对个人而言，要写的话要不就是别人没写过的，要否则就是写得比人深，否则感觉没太大意义。

一狠心，开个大坑吧，写写 GPT 发家史，怎样从最初少人知晓，偏居一方，直到被 BERT 点名才被各人知道，再到 GPT2 一战成名。之后 OpenAI 和 GPT 相干的一举一动就都倍受关注，一有消息，便成为热议，好比这次 DALL·E，另有之前 GPT3 连正式博客都没发就各种讨论。

我之前算半个 GPT 黑粉，由于以为技能创新不高，不像 BERT 有 MLM 如许惊艳的想法，以是没以为很锋利。

之前有段时间被一个加拿巨细哥缠着讲 GPT，他不停说 GPT 就是将来，就是 AGI（能人工智能），但实在 Transformer 都不是很懂。我固然对他是嗤之以鼻，照旧末了收了 100 刀（用这钱买了一堆课）才给他把 GPT 布局从下到上都捋了一遍，细到盘算图每个节点。

如今，随着 OpenAI 一步步往上堆，到 GPT3 各种 demo 出来，再到 DALL·E 直接文本天生图片，我也只能直呼牛比，香，真香。究竟证明白不停对峙做一件精确事变的紧张性。

风趣的是， OpenAI 建立之初并非由于文本天生模子而着名，这点和 DeepMind 些许差别，后者专注强化学习一百年。

而 OpenAI 一开始两条线是强化学习和天生模子（会合 GAN），而 GPT 开始也没受到太大关注，而是在探索中 OpenAI 发现了其大概性，便开始鼎力大举投入，到如今根本上一泰半项目都与其相干。以是，现今各人提起 OpenAI 信赖都是立刻想起 GPT，再大概和马一龙（Elon Musk）早期有一腿，又多少人还能想起强化学习和GAN呢。

由于如许的发展，因此回首 GPT 的发展史无疑黑白常风趣的。这种始于微末，到之后野心巨大，仿佛要”天下布武“，文本音频图像齐备都要的故事性。让我立刻中二了，这种剧情太有戏剧性了，不正是：GPT 的野望！

睁开全文

接下来就来一起看看 GPT 是怎样发家，一步步长大，实现它野望的吧！（文尾偶然间线）

1 GPT：始于微末，偏居一方

提及 GPT 的东家 OpenAI，如上面提到的，刚建立时肯定也没想到本身之后是靠 GPT 参加鼎力大举神教而成名。究竟当时刚发布 OpenAI Gym 的它还想着怎样用强化学习来搏得一席之地，更远些实现 AGI，但现在各人也都知道了，帮他完成心愿的大概是 Hassabis 领导的 DeepMind 了。

看看 OpenAI 早期成员，除 Pieter Abbeel 等做强化学习的，就是一众做偏图像天生的，好比 GAN 提出者 Ian Goodfellow 最早也是入职 OpenAI，同期入职的另有一个叫 Alec Radford 发明 DCGAN 的精力小伙。各人记着这个名字，由于他对 GPT 的发展应该说至关紧张。

以是可以看出最早 OpenAI 就是群做强化学习和图像天生的人，没啥做 NLP 的，天然也难意料本身居然是通过 NLP 来一战成名。

因此 GPT 模子也是从 OpenAI 15年建立，过了三年，到 18 年才趁着改革开放四十周年的东风，哦不，Transformer 和 NLP 预练习模子的东风，得以出现。

其时，提出 Transformer 的 Attention Is All You Need 于17年刚发表，各人尚在观望 Transformer 的结果，笔者也还在用 LSTM 做翻译。

而到了 18 年，亦可说是 NLP 预练习模子元年，开年 ULMFiT 和 ELMo 打开战局，到年底 BERT 屠榜血流成河，让 NLP 范畴进入了被芝麻街支配的可怕。

而第一代 GPT 也正是在这个风雨交加的一年的年中诞生，实在要说先兆也不是没有，看 OpenAI 17 年发的一篇博客 Unsupervised Sentiment Neuron，就已能看到其为之后 GPT 研究打下的底子。

这篇论文用 LSTM 在 Amazon 商品批评上练习单向语言模子，发现只通过如许云云简朴的预练习目的，LSTM 就能产生一种情绪神经元可以反应差别的情绪。固然其时用预练习得到表现在 SST 情绪分类上取得了 SOTA，但各人更多聚焦的是它的可表明性，以及通过情绪神经元举行可控天生的工作，倒并没对预练习给予太多关注，我最早知道该研究也是可表明性。

不外各人立刻也看出实在这已为之后 GPT 打下了底子，GPT 和该研究的差别只在于将 LSTM 更换成 Transformer，另有用了更大更 general 的数据（这个套路之后也会不停出现），用的仍旧是”云云简朴的预练习目的“。

从作者阵容也能看出，Sentiment Neuron 的两位重要职员 Alec Radford 和 Ilya Sutskever 也在之后的 GPT 文章中一而再，再而三出现。俩人可堪称为 GPT之父。

说完前身，正式看看 GPT 模子吧，也可称其为 GPT1。

GPT 全称为 Generative Pre-Train（查了才知道），也就顾名思义通过天生式来预练习。

模子布局是 Transformer Decoder 布局，共 12 层，隐层巨细 768，12 留意力头，练习长度为 512 个 token 长。总计 1.1亿参数，和之后的模子比固然只是个小不点，但其时也不小了。最大的 ELMo 才9万万参数。

用到的数据是 BooksCorpus 数据集（约5GB），大概在 8 张 P600 （内存2GB）上训了一个月，可看到这时间给的资源还挺少。

结果实行也重要在**语言明白（Language Understanding）**使命上做的，在 GLUE 上取得的结果在其时看来也挺好的，许多使命上取得了 SOTA，但希奇的是 GPT 好像并没受到太大关注，也大概只是在小范畴内有些名气，但团体来说照旧少被提及（大概也跟它 idea 没太大创新性有关）。

我最初知道 GPT，估计和大多人一样，都是看到 BERT 论文中 pick 它出来碾压的时间。

这时的 OpenAI 还没有看到 GPT 真正潜力地点，只是用它来做语言明白方面使命，但却忽略了它真正潜力实在在天生。而这也正是 GPT 之后几代亮点地点。

GPT 这篇博客 Improving Language Understanding with Unsupervised Learning，可看到 Future 一栏此中一条写着 Scaling the approach。

there is significant room for improvement using the well-validated approach of more compute and data.

假如得当的用更多算力和数据的话，另有很大的提拔空间。

there is significant room for improvement using the well-validated approach of more compute and data.

假如得当的用更多算力和数据的话，另有很大的提拔空间。

毫无疑问，这条路确实是精确的！

由于 GPT2 的到来。

2

GPT2：Too Dangerous To Release，一战惊天下

18年在 BERT 横空出世后的余震中竣事，当翻过一年到 19 年，正值2月14日那天，恋人节，一个本应是异性恋们暴击只身狗，给只身狗们饱喂狗粮的日子。

但科研只身狗却来不及伤心，只因 GPT2 的出现给呆板学习范畴投下又一枚炸弹，造成的整动是2019年整年，随着每次模子放出，都能成为头条。不管是 PR 做得好，照旧 GPT2 真的就是伤害，但至少让 GPT2 著名的目标已到达。

正所谓一战惊天下，如织田信长桶狭间一战，乐成斩首今川义元，从一方小权势成为名震天下的台甫，开始其称霸之路。GPT 也正是从 GPT-2 的着名后，开始了其称霸之路。

大多人知晓 GPT2，照旧从那句”Too Dangerous To Release（太伤害了，不能给）“的复兴开始。

GPT2 的乐成真可以说是 AI 界最佳 PR 了，比起我司某某模子打了某某榜简直锋利百倍。论文发出来，各人要模子，先称太伤害，使用各人对 AI 灭世论的恐惊来挑起话题。而之后放出的 Demo 也确实出色，引起了一片论战，各人纷纷站边，到底该不应开源 GPT2 模子，还都说得很有原理。别的，还依稀记得 GPT2 有蹭到流量之王马一龙的流量，以及整年连续开源模子的计谋也不停拉起话题，真的牛。

而要说 GPT2 所宣称的 Misinformation（虚伪信息）伤害，我个人也以为确实应该留意，疫情期间本身还尽过一份力来打击，但对于 GPT2，我只以为是个幌子，之后各人也发现真正该防范的实在是 GAN（DeepFake）的 Misinformation，OpenAI 几个月后本身也发了博客，根据观察似乎也没啥太大危害，哈哈哈，各人随意各人随意。

接下来聊聊 GPT2 的模子细节，另有其所宣称的惊人结果吧。

相比起 GPT，GPT2 重要的差别照旧在于模子、数据、以及练习规模，更大更强了。

起首模子方面，GPT2 最大的模子有 48 层，1600 隐层巨细，25个留意力头，1024的上下文长度，而 GPT 的巨细只相称于 GPT2 最小谁人模子。

数据方面，通过抓取 Reddit 上 3 个点赞以上链接的文章，举行洗濯，得到 40GB 的文本数据，称其为 WebText.

别的模子架构有点稍微改变，主体上照旧 Transformer，但将 Layer Normalization 放到了留意力层的前面。相称于直接给 Token 向量买通了一条直通末了一层的通路，不知是否是由于如许会更有利于天生式练习。

练习耗费上，大概用 32 块 TPU v3（8 个核）训了一周，花了 4.3 万美金。在 18 年谁人各人还不是很见过世面的时间，都被惊呆了，二三十万一个模子，乖乖。

固然，如今各人都已经屡见不鲜，翻翻眼皮该干啥继承干啥。

关于结果方面信赖也都很清晰，这次 OpenAI 意识到了，原来 GPT2 的刚强不在语言明白啊，以是都没在 GLUE 上测试。而是直接展示 GPT2 真正的刚强，天生。

论文中展示了一个 GPT2 天生的关于科学家发现独角兽的故事，固然被吐槽是 Cheery-Pick（经心挑选）出来的，但结果照旧非常惊人，包罗其天生的流通性，前后的逻辑性等等。

也正是由于好结果，OpenAI 才有底气称 GPT2 太伤害，怕被滥用。

除了故事天生，也是从 GPT2 开始 OpenAI 开始器重其用于 Zero-Shot 的大概性。起首在各个语言模子使命上不练习直接举行评估，效果发现 GPT2 语言模子强盛到直接 Zero-Shot 环境下屠榜。

固然语言模子使命还不是关键，更关键的是对其他使命也举行 Zero-Shot，好比问答，翻译，总结... 不练习只给出一些范例，然后让 GPT2 基于范例文原来直接举行天生，展示了 GPT2 的通用性。

关于 GPT2 模子开源计谋，二月放出 small 模子，五月放出 medium 模子，八月才放出 larger 模子，十二月放出最大的 xl 模子，刚好一年。

这一年里，各人也基于 GPT2 放出的模子做了各种 demo，好比 HuggingFace 的 TalktoTransformer，和代码补全的 TabNine（用过都说好，除了资源斲丧大），另有其他家也练习了雷同模子，好比 Grover，但也学 OpenAI 没放出大模子，来由直接略，同 OpenAI。

GPT2 就如许红了 19 年一整年，期间固然芝麻街的各位也是你方唱罢我登场，打得不可开交。

在进入让全部人都难忘的 20 年前，还必要倒转一下时间，由于从年初放出 GPT2 后，OpenAI 也没闲着，固然不是把全部工夫都放在”安全“题目上。

而是在 GPT2 看到的大概性上举行进一步的探索与预备，起首第一步，为下一步的更大更强打好底子！

3

练兵屯粮：OpenAI LP，Sparse Transformer... All For Scaling!

第一步，固然是搞钱。

GPT2 的烧钱本领也是有目共睹，按照 OpenAI 的构想还要做得更大更强，往更多范畴推广，就必要大量钱来搭建本身的大规模盘算体系（GPT2 还借的谷歌家的 TPU），势必烧钱速率就更快了。

因此 OpenAI 先建立了一个好搞钱的所谓 ”Capped-Profit (有上限红利)“ 的子公司 OpenAI LP，而母公司 OpenAI 照旧 non-profit。

没过多久，就收到了微软爸爸给的一亿美金，同时互助一起开辟专门给 OpenAI 用的大规模云盘算资源。

在大规模分布式练习过程中，OpenAI 用的是 Kubernetes 搭建集群举行实行，也总结了大量的履历，包罗 Scaling Kubernetes to 2,500 Nodes 和 Scaling Kubernetes to 7,500 Nodes 两篇博客，背面提到的 GPT3、DALL-E、以及 CLIP 等模子都是在 7500 节点集群上练习的。

于是硬件资源就搞定了，之后是软件方面，假如要进一步扩大 GPT 的规模，包罗模子巨细，另有建模长度，那势须要优化一下原始 Transformer 模子。原始 Transformer 模子的缺点总所周知，就是它的盘算复杂度，这也是近期的一个热门研究方向，魔改 Transformer，低落盘算复杂度。

OpenAI 也给出本身的魔改方案，那就是 Sparse Transformer.

如其名 Sparse（希罕），重要对 Transformer 中最占盘算量的留意力矩阵（Attention Matrix）部门做了优化，通过希罕化，将盘算量从降到了。详细操纵就是通过观察总结后，将原来的留意力模式，更换成设定的更有服从的留意力模式，从而将算子中一个降到了。

固然 Sparse Transformer 那篇论文不但是提出了 Sparse Attention，还包罗怎样用它来构建更大规模的模子，包罗增长到数百层，怎么通过重盘算留意力权重来淘汰练习时内存利用，以及将希罕留意力模式写成 GPU 核函数进步服从，别的另有混淆精度等等。

另有一个非常必要指出的就是，OpenAI 从这里就已开始将 Transformer 不但用在文本，还用在音频和图像序列天生上了，这也为之后的发展打下肯定底子。

除了上面提到的软硬件，OpenAI 也积聚了各种大规模练习履历，都是些经（shao）验（qian）法则，总结出模子巨细，数据集巨细，盘算量和丧失的关系，另有模子的宽度和深度比比方何处置惩罚等等。这些规律的总结无疑对 OpenAI 举行各种实行非常有帮组，包罗怎样举行架构参数计划，怎样分配最优盘算资源。

感爱好可以检察这两篇论文 Scaling Laws for Neural Language Models，Scaling Laws for Autoregressive Generative Modeling。看完这两篇，不由深感我等之贫苦，洒下了不甘的泪水。

底子都预备好了，就是时间开始我们 GPT 的野望了，攻城略地，进击吧！！！

4 进击：音频之音乐天生

有了 GPT2 在文本的性能展示，以及 Sparse Transfromer 的各种练习优化，是时间将 GPT 的脚步迈出单纯的文本天生了。

第一步就是音频，音乐天生。

实在 Sparse Transformer 有对音频举行直接天生的实行，以是看到盼望后，OpenAI 就开始逐步投入人力来发展这条线。最开始对这方面举行探索的是 Christine McLeavey Payne，做了个简朴的 demo，MuseNet.

紧接 GPT2 不久，19年四月末就发布的 MuseNet，模子布局用的就是 Sparse Transformer 的 72 层，24头，4096 上下文长度的模子，练习目的也很简朴，将 GPT2 的文本序列换成了将 MIDI 文件的音频给 Token 化后的序列，单向序列天生。

而练习数据用的是，搜集到的各种 MIDI 文件，此中包罗古典音乐，爵士，盛行各种风格。还带有各种元信息，乐器作曲家等，如许就能参加乐器 Token 和作曲家 Token 来让模子分清差别乐器和作曲家风格，之后天生也就更可控。

大概练习数据的格式如下

bach piano_strings start tempo90 piano:v72:G1 piano:v72:G2 piano:v72:B4 piano:v72:D4 violin:v80:G4 piano:v72:G4 piano:v72:B5 piano:v72:D5 wait:12 piano:v0:B5 wait:5 piano:v72:D5 wait:12 piano:v0:D5 wait:4 piano:v0:G1 piano:v0:G2 piano:v0:B4 piano:v0:D4 violin:v0:G4 piano:v0:G4 wait:1 piano:v72:G5 wait:12 piano:v0:G5 wait:5 piano:v72:D5 wait:12 piano:v0:D5 wait:5 piano:v72:B5 wait:12

可看到，只是简朴的给 MIDI 中的信息用文本表现出来了，包罗乐器，音高，音量等（乐器:音量:音高）。

而现实结果，听了下，比力得当写作业听，固然听起来像那么回事，但一首曲子没有完备主题，跳来跳去，风格倒是像一听就听出来了。

团体来说结果还挺好的，特殊想到这只是基于单向序列猜测来天生的。研究生阶段隔壁就是做音乐天生，看传授做的各种东西，会发现必要各种音乐理论，前后处置惩罚很贫苦，天生结果还不肯定好。

而 MuseNet 直接无视各种理论，单向无脑输出。可类比语言天生方面，GPT 也没用到什么句法树啥的语言布局理论，只是单向输出，却能得到布局完备，逻辑还不错的文本。

固然 MuseNet 只是第一步，之后一年内 OpenAI 扩大团队（Alec 和 Ilya 也参与），又做出了一个更棒的音乐天生产物，那就是恰恰一年多一点的20年4月末放出的 JukeBox.

JukeBox 相比起 MuseNet 最大的改进就是————更大了。

开顽笑，确实是大了些（上下文长度扩大到 8192），但这不是关键，最关键的两点在于

将 MIDI 输入酿成了 32-bit 44.1kHz 的纯音频输入，参加了编码解码方案来将音频 token 化，以及还原

可基于文本（歌词）举行声音的输出

对于第一点，重要思量，假如将纯音频输入当做 bit 处置惩罚，那么一个只有4分钟的音乐就有凌驾1000万个时间步，而假如想学习音乐的高条理信息又得参考全局信息，而这么长的时间步根本不大概直接用 Transformer 处置惩罚。

因此一个办理方案就是，通过将一段音频给离散化压缩投影到一个更低维的空间 token 化，来淘汰时间步。

而这里将音频离散化以及还原的部件用的是 VQ-VAE-2，能将音频编码成差别条理的 token，然后再解码归去。

对于第二点，练习倒不难，难在得到歌词与音乐的对齐数据，研究职员通过一些先验，好比每个词固定窗口巨细，或用 AutoLyricsAlign 如许的对齐工具来处置惩罚。

结果和 MuseNet 雷同，结果不差听起来像个样子，而且在一些小范围还能天生一些很棒的片断，但大的像整个音乐的维度上却差能人意，不能天生那种团体布局化的东西。

别的这个模子巨慢，天生一分钟音频要快要 9 个小时。也找了音乐家来用，但发现尚没有比力好的辅助创作的用途。

但团体来说照旧很 impressive 的，由于究竟是直接从纯音频来做的音乐天生，也证明白在 GPT 在音频范畴的本领。

5 进击：强化学习之参加人反馈的文本天生

在文本天生方面，OpenAI 盼望能做得更好。固然 GPT2 表现不颠末练习，只用一些文本 Prompt（提示）来引导，就能完成许多使命，好比翻译，择要等等，但性能也理所固然不会太好，也很难控制。

于是就 OpenAI 就预备使用本身的刚强，强化学习，来对文本天生举行增强。

第一个探索结果是，19年9月发布的 Fine-Tuning GPT-2 from Human Preference，方法非常简朴，固然用了强化学习的概念，但却是一个你我他，三岁小孩都懂的强化学习方法。

就是针对特定使命，先给个可基于文本，然后再给出四个大概样本，之后找众包工具人们，做多选题，对当前使命哪个最好，末了 GPT2 就用这个来举行 finetune 练习。

非常简朴吧，名副实在的**“人工”智能**，给我一堆人，我就能天生一个宇宙。

使命包罗限定风格的文本续写，以及文本择要。

发现对续写使命，基于人反馈的 GPT2 只用非常少样本就能天生非常好的效果。但文本择要却出了题目，由于人类标注会倾向于直接抽取式的择要效果，导致 GPT2 也学到了这种倾向，变得只会简朴地从文本中举行 copy 来举行择要天生。

同样刚好一年后（发现规律了吗），2020年9月 OpenAI 放出一篇新博客，Learning to Summarize with Human Feedback. 正是汲取上面的履历后，做出的进一步实行。

这次用到了真正的强化学习。

只关注一个使命，之前不太乐成的文本择要，用的是 Reddit TLDR 数据集。结果比前次好许多，能不 finetune 直接用在 CNN/DailyMail 择要使命上用，结果还很好，都能作为一个通用的择要模子了。

而相比起之前最重要的改进，在于两点

最紧张的照旧在于标注质量的进步，之前出的题目是模子会常常只 copy 片断用于择要，但这是由于标注导致的。以是这次 OpenAI 汲取教导，不再用众包，直接雇了 80 个标注合约工，不按件计费了，要注意质量。别的，还对每个人举行了具体的口试入职，开辟专门的标注界面，另有专门的谈天室来咨询题目，还会一对一打视频电话对... 非常专心了这次，因此才气得到比前次质量高许多的标注。
其次用到了真正意义上的强化学习算法 PPO，而 reward 不再是人直接给了，而是先用上面的高质量标注练习一个好的 reward 模子，之后再用这个 reward 模子来优化天生计谋。

最紧张的照旧在于标注质量的进步，之前出的题目是模子会常常只 copy 片断用于择要，但这是由于标注导致的。以是这次 OpenAI 汲取教导，不再用众包，直接雇了 80 个标注合约工，不按件计费了，要注意质量。别的，还对每个人举行了具体的口试入职，开辟专门的标注界面，另有专门的谈天室来咨询题目，还会一对一打视频电话对... 非常专心了这次，因此才气得到比前次质量高许多的标注。

其次用到了真正意义上的强化学习算法 PPO，而 reward 不再是人直接给了，而是先用上面的高质量标注练习一个好的 reward 模子，之后再用这个 reward 模子来优化天生计谋。

整个过程就如下图

这套流程 OpenAI 非常认识，之前就有相干结果。

除了前面说的降服了之前模子 copy 的缺点，还发现通过强化学习计谋，能让小模子比大模子有监视结果更好，好比通过该方式练习 13亿参数模子，比120亿参数直接监视练习的择要结果还要好。

固然和其他 GPT 一样缺点就是太大了，6.7B的模子用强化学习来 finetune 必要 320 GPU天。

6 进击：图像之图像天生

要说 GPT 系列里最让人 impressive 的，照旧图像天生的结果，前段时间的 DALL-E 正是这部门的最新结果，也是 DALL-E 让我萌生了写这篇文章的想法。

DALL-E 和之前的 JukeBox，另有强化学习择要一样，在正式进场前，都先有一个开端探索的结果。而对于 GPT 图像天生，这个结果就是 imageGPT 了，简称 iGPT.

idea 非常简朴，和 Sparse Transformer 里做法一样，对图片像素直接举行序列猜测，但 iGPT 为了展示 GPT 强盛的通用性，刻意利用了和 GPT2 一样的架构，同时也为了制止植入先验，以是直接用的是完备版 Transformer，即盘算复杂度的版本.

这也导致 iGPT 的练习斲丧很大，必要 2500 个 V100 天。由于算力需求高，这也让 iGPT 的建模长度不能太长，以是是在三种低分辨率巨细上举行的练习：32x32, 48x48, 64x64.

为了进一步淘汰序列长度，没有直接用 RGB 编码格式的图片举行练习，而是 OpenAI 本身搞出了一个 9-bit 的颜色编码，比 RGB 格式的长度又小了三倍。

但 iGPT 想要夸大的并不是其天生本领，而是想展示 GPT 的通用性，通过如许简朴的单向序列猜测目的在图片上举行练习，也能学习到非常好的图片特性。

使用这些图片特性，iGPT 能在一些图片数据集上到达 SOTA.

固然这个 SOTA 代价也黑白常大的，比对比学习的服从差太多了，但 OpenAI 表现这里只是在探索大概性，证实 GPT 的本领，爷就是壕。

以为按照同样规律，又要过个一年后，但没想到这次是半年后，OpenAI 在 GPT 的图片天生上就进一步放了一个大招：DALL-E. 还买一送一，送了个 CLIP.

DALL-E 许多细节还没放出来，更多只是展示了它惊人的结果，太炫了简直。

DALL-E 完成的使命用一句话来说就是，根据文本天生满意要求的图片。而且还能仿佛明白了文本内容一样，天生一些之前完全就不存在的图片，好比长颈鹿龟。

更多 demo，可以去原贴看，照旧一句，很惊人。比之前 GPT2 的文本展示给人的打击力大多了。

按照博客里的说法，DALL-E 却并没用 GAN-loss，只是单纯用和 GPT 一样猜测下一个 token 的最大似然丧失。仅仅只是如许就能用文本举行图片天生，真的有点不可思议。以是说到底照旧，Attention Is All Your Need! Transformer 布局真如 Sutton 传授在 The Bitter Lesson 里说的，是一种可以充实撬动算力来举行 Scaling 的方法。

接下来先容关于 DALL-E 的模子细节。

起首，DALL-E 整个就是一个 GPT3 的图像版本，关于 GPT3 下一节会再先容，重要照旧更大更强了。而 DALL-E 用到的数据集，应该和 CLIP 一样，是 OpenAI 在网上爬取的大量图片与文本的成对数据。

之后，再将这些成对数据构建成 token 序列，前面是 256 个 token 长度的文本序列，而紧接着的是 token 化成 1024 个 token 的图片。

至于怎样 token 化，还记得 JukeBox 的同砚立刻就能想到，没错，就是 VQVAE. 先将图片预处置惩罚成 256x256 的图片，之后预练习 VAE 将 256x256 像素巨细的图片，压缩成 32x32 的离散隐编码，云云就刚好得到 1024=32x32 长度的图片 token 表现。

对前面的文本序列，Attention 接纳的就是尺度单向语言模子的 mask，而对图片序列部门，用的是 SparseTransformer 里提到的各种留意力模式。

对图片与文本之间，每个图片 token 都会看到全部的文本信息，之后练习也按照如许的安排，来举行单向 token 猜测。

现在看到的就是这么简朴的方式，之后加上超大的 GPT3，再加上大概也超大的文本图片对数据，就可以或许得到惊人结果的 DALL-E 了。

而 DALL-E 的缺点，照旧之前全部 GPT 的缺点。

第一，盘算量 super 大，先不说 GPT3 如许 Inference 一次，之后还得将天生的图片 token 用 VAE 还原成图片，还得 sample 多次，末了再用 CLIP（同样巨大），对这些图片举行 rerank，再挑出满足的图片。而且天生过程还得调，这就涉及到第二点。

第二，可控性差，固然 GPT3 在大量数据上训完后的本领很强，但也让它像是一头难以控制的巨兽（初号机），要控制其产生令人满足的天生，必要不停实验给它符合的文本引导 prompt。以是才会看到 demo 里有些 prompt 很希奇，同样的话要说好几遍。

随着 GPT 的乐成，估计之后 prompt engineering 也会成为一门学科（aka: GPT控制学）

7 贸易化：GPT3君临

基于数次提到的 GPT 的缺点，尤其是模子过大，算力需求大，以是之前想法也是这个肯定不太好投入实用上线。

效果 OpenAI 就在 20 年年中放出了一个 API 接口，而这实在也就是 GPT3，以及用它做的贸易化。

可以清楚看到，相比起 GPT2，这次 GPT3 真是一点没宣传模子，还不如 GPT，至少 GPT 还专门发了篇博客，而 GPT3 只是悄咪咪地发了篇论文，然后在 OpenAI API 博文里轻微提了一嘴。

但即便云云，GPT3 一出来照旧受到了很大关注，引起了许多争议。最大争议固然就是来自一众对 GPT 报以巨大盼望的人，以为 GPT3 肯定能在 GPT2 底子上举行巨大创新，效果一看照旧老路子，模子方面没有太大创新，继承烧钱！更大！更强！

模子更大了，从 GPT2 的 1.5B 给扩大到 175 B，96层，12288隐层巨细，96头，真正的巨无霸，练习 batch size 照旧 3.2M。数据也更大了，包罗之前的 WebText 的增强版，另有一些开源高质量数据集，Books1，Books2，Wikipedia，别的还参加洗濯过的 Common Crawl 数据，光纯文本就 570 GB 巨细。

固然肯定要说布局上没改动，也不是，实在就是之条件到过的 Sparse Transformer，GPT3 里的 Transformer 应该用了 Sparse 布局。

GPT3 论文长 75 页，多数是在做各种实行来探索它的性子，而此中重要关注的就如其标题Language Models are Few-Shot Learners，提到的 Few-shot learning。

固然这里的 Few-shot，和传统意义上明白的找几个例子 finetune 还差别。只是直接给 GPT3 几个相干例子，让 GPT3 输出想要的效果，这个过程中没有参数练习和梯度通报的。

之以是 OpenAI 做如许的实行，很大大概是由于 GPT3 的练习本钱过大，因此假如要利用的话，更盼望是能直接 inference 用，没有 finetune 的练习过程。

实行效果也给了 OpenAI 挺大信心，GPT3 能如许在大量使命上取得还算不错的结果，充实证明白其强盛的泛化性。乃至在一些使命上，只通过如许不消 finetune 练习的方法，就取得 SOTA 效果。

通过上述一系列 OpenAI 对 GPT3 的态度，已经能看出 OpenAI 对 GPT3 的盼望，已经不在其所谓模子创新性了，更多在怎么展示它的实用性上，包罗在各种使命上的通用性。别的论文内里还花了很大篇幅讨论其社会影响。

固然，最直接的照旧给 API 放了出来，预备贸易化。让各人可以通过申请白名单（特殊难申请）来体验 GPT3 的结果。

而申请下了 API 的大佬们，用 GPT3 做了许多超炫的 demo，包罗直接根据要求天生 html 和 css 代码，另有 AI Dungeon 直接让 GPT3 天生游戏脚本，各种各样。更多可参考 http://github.com/elyase/awesome-gpt3

OpenAI 贸易化 GPT3 API 后，好爸爸微软立即就开始砸钱，让 OpenAI 给该接口授权给它了，纵然这个 API 还在 Beta 测试阶段。

而至于 GPT3 大概的远景，我个人照旧挺看好的，由于展示出的许多 demo 确实好。而且根据吴传授在 The Batch 里提到的一些环境，他建立的 Landing.ai 里已经看到许多人开始思量怎样用 GPT3 来举行创业了。

而假如文本的 GPT3 API 乐成后，由于上述的各种其他模态的模子也都是基于 GPT 模子来举行开辟的，因此将这些无论是音乐天生，图像天生，择要天生的打包成 API，也黑白常简朴。

将来随着开辟信赖 OpenAI 也会随着这些必要提供各种各样模态的 GPT 模子，而利用者只必要提供本身的 idea，剩下的交给模子就行。

8 将来

至于之后的路途，实在差不多能清楚的看到了，用 GPT 的这套框架，只要给出充足的数据，无论是什么，只要能 token 化和序列化，不管是什么模态，文本、音频、图像，乃至更远些如脑电波。GPT 这套框架都能给建模出来。

之后 OpenAI 只是想到一个应用的 idea，然后找到大量的数据，想办法序列化，就能直接练习出一个该应用的 XX-GPT 了。如之条件到的笔墨转音频，笔墨转图像，反过来 GPT 也能轻松做。

假如想要针对某个特定使命举行增强，那么也能用强化学习举行强化。

固然每个模子一个应用也很贫苦，之后肯定得想一种方法，简朴点固然用使命 token 提示，将大量的使命放在一个模子里，末了只用一个超大模子就能完成各种使命。实在这也是 Google Brain 不停想要完成的事变，好比近来的 Switch Transformer.

多年后，大概会有一个 GPT-1000，人们想要完成什么使命，好比说根据这个视频配一段 OST，告诉它，给它输入，它返回多个候选的创意，人类再在这些底子上举行调解美满，末了给这些效果反馈给 GPT，让它不停进化。而模子自身也能不停地从网络上抓取数据举行自我练习。

而如许的过程不停举行下去，日积月累终极得到的模子也必快要乎是一个通用型的人工智能。

时间线

Reference

[0] Unsupervised Sentiment Neuron: Learning to Generate Reviews and Discovering Sentiment

[1] GPT: Improving Language Understanding with Unsupervised Learning

[2] GPT2：Better Language Models and Their Implications

[3] Sparse Transformer: Generative Modeling with Sparse Transformers

[4] MuseNet

[5] GPT-2: 6-Month Follow-Up，许多作者影响

[6] RL from human prefer: Fine-Tuning GPT-2 from Human Preferences, 更多人参与

[7] GPT-2: 1.5B Release

[8] Jukebox, 作者：Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, Ilya Sutskever

[9] OpenAI API, GPT3，都没有成为 milestone，博客也没发，紧张度降落

[10] Image GPT, Next pixel prediction

[11] Learning to Summarize with Human Feedback

[12] OpenAI Licenses GPT-3 Technology to Microsoft

[13] DALL·E: Creating Images from Text, 主导者，Aditya Ramesh

[14] CLIP: Connecting Text and Images

[15] Attention Is All You Need

[16] ULMFiT：Universal Language Model Fine-tuning for Text Classification

[17] ELMo: Deep contextualized word representations

[18] Scaling Laws for Neural Language Models

[19] Scaling Laws for Autoregressive Generative Modeling

[20] Microsoft Invests In and Partners with OpenAI to Support Us Building Beneficial AGI

[21] OpenAI LP

[22] Scaling Kubernetes to 2,500 Nodes

[23] Scaling Kubernetes to 7,500 Nodes

[24] Learning from Human Preferences

[赠书福利]

AI科技批评本次团结【图灵教诲】为各人带来12本 《人工智能简史（第2版）》正版新书。

在“《人工智能简史》第二版重磅来袭！| 赠书” （点击超链接跳转）一文留言区留言（留意不是本文！），接待各人各抒己见，谈一谈你对人工智能发展汗青上某件大事或某个人物的见解，或对人工智能将来发展的见解。

AI 科技批评将会选出 12名读者，每人送出 《人工智能简史（第2版）》一本。

运动规则：

2. 留言内容会有筛选，比方“选我上去”、“这誊写的很棒（仅仅几个字）”等内容将不会被筛选，亦不会中奖。

3. 本运动时间为2021年2月12日 - 2020年2月19日（23:00），运动推送时间内仅答应赠书福利中奖一次。

由于微信公众号试行乱序推送，您大概不再能定时收到AI科技批评的推送。为了第一时间收到AI科技批评的报道，请将“AI科技批评”设为星标账号在看”。

举报返回搜狐，检察更多

责任编辑：

GPT的野望

相关帖子

浏览过的版块