告别2019：属于深度学习的十年那些我们必须知道的经典

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场■★◆◆★◆，澎湃新闻仅提供信息发布平台★★◆■★。申请澎湃号请用电脑访问。

　　研究者们发现，标准的神经网络剪枝技术会自然地发现子网络★■◆◆■，这些子网络经过初始化后能够有效进行训练。基于这些结果，研究者提出了「彩票假设」（lottery ticket hypothesis）：密集、随机初始化的前馈网络包含子网络（「中奖彩票」），当独立训练时，这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率。

　　很多人对于现代 AI 的理解始于 DeepMind 的围棋程序 AlphaGo★■■。AlphaGo 研究项目始于 2014 年，目的是为了测试一个使用深度学习的神经网络如何在 Go 上竞争■◆★★■★。

　　当然，ReLU 也有一些缺点。在函数为 0 的时候不可微，而神经元可能会「死亡」。在 2011 年之后◆■★★■◆，很多针对 ReLU 的改进也被提了出来◆★★◆。

　　谷歌提出了一种新型的简单网络架构——Transformer■★■■，它完全基于注意力机制，彻底放弃了循环和卷积。两项机器翻译任务的实验表明，这些模型的翻译质量更优，同时更并行，所需训练时间也大大减少。新的模型在 WMT 2014 英语转德语的翻译任务中取得了 BLEU 得分 28.4 的成绩，领先当前现有的最佳结果（包括集成模型）超过 2 个 BLEU 分值。在 WMT 2014 英语转法语翻译任务上◆◆★★，在 8 块 GPU 上训练了 3.5 天之后，新模型获得了新的单模型顶级 BLEU 得分 41◆★■◆■◆.0■★★■，只是目前文献中最佳模型训练成本的一小部分。

　　大名鼎鼎的 ResNet，从 ResNet 开始，神经网络在视觉分类任务上的性能第一次超越了人类。这一方法赢得了 ImageNet 2015■■◆◆◆、以及 COCO 竞赛的冠军，也获得了 CVPR2016 的最佳论文奖◆★★★：该研究的作者是何恺明、张祥雨、任少卿和孙剑★★◆。

　　批归一化（Batch normalization）是如今几乎所有神经网络的主流趋势。批归一基于另外一个简单但是很棒的想法：在训练过程中保持均值和方差统计，借此将 activation 的范围变换为零均值和单位方差。

　　著名的 Transformer 架构出现了◆★◆■★。2017 年 6 月，谷歌宣布又在机器翻译上更进了一步★◆■◆，实现了完全基于 attention 的 Transformer 机器翻译网络架构，并且还在 WMT 2014 的多种语言对的翻译任务上超越了之前 Facebook 的成绩◆◆■，实现了新的最佳水平★★◆★。

　　Word2vec 是由谷歌研究团队里 Thomas Mikolov 等人提出的模型，该模型能从非常大的数据集中计算出用以表示词的连续型向量。word2vec 成为了 NLP 领域的深度学习主要的文本编码方式。它基于在相同语境中同时出现词具有相似含义的思路，使文本可以被嵌入为向量，并用于其他下游任务。

　　Transformer 在其他任务上也泛化很好，把它成功应用到了有大量训练数据和有限训练数据的英语组别分析上。

　　BERT 带来的影响还未平复，CMU 与谷歌大脑 6 月份提出的 XLNet 在 20 个任务上超过了 BERT 的表现，并在 18 个任务上取得了 SOTA◆◆■■。

　　神经结构搜索（NAS）表示自动设计人工神经网络（ANN）的过程，人工神经网络是机器学习领域中广泛使用的模型。NAS 的各种方法设计出的神经网络◆★★◆■◆，其性能与手工设计的架构相当甚至更优越。可以根据搜索空间★★◆◆◆★，搜索策略和性能评估策略三个方面对 NAS 的方法进行分类。其他方法■★，如《Regularized Evolution for Image Classifier Architecture Search》（即 AmoebaNet）使用了进化算法◆◆■◆。

　　自 BERT 被提出以来★■◆★■，基于 Transformer 的语言模型呈井喷之势。这些论文尚需时间考验，还很难说哪一个最具影响力◆★■■★。

　　在本文中研究者证明，各种现代深度学习任务都表现出「双重下降」现象■■，并且随着模型尺寸的增加，性能首先变差，然后变好★★■■◆■。此外，他们表明双重下降不仅作为模型大小的函数出现，而且还可以作为训练时间点数量的函数。研究者通过定义一个新的复杂性度量（称为有效模型复杂性◆■◆，Effective Model Complexity）来统一上述现象，并针对该度量推测一个广义的双重下降。此外，他们对模型复杂性的概念使其能够确定某些方案■★★★◆■，在这些方案中，增加（甚至四倍）训练样本的数量实际上会损害测试性能◆■■★◆★。

　　AlphaGo 比以前的 Go 程序有了显着的改进，在与其他可用围棋程序（包括 Crazy Stone 和 Zen）的 500 场比赛中，在单台计算机上运行的 AlphaGo 赢得了除一个之外的所有胜利■★◆■，而运行在多台计算机上的 AlphaGo 赢得了与其他 Go 程序对战的所有 500 场比赛，在与单台计算机上运行的 AlphaGo 比赛中赢下了 77％的对阵。2015 年 10 月的分布式版本使用了 1■★★◆,202 个 CPU 和 176 个 GPU，当时它以 5: 0 的比分击败了欧洲围棋冠军樊麾（职业 2 段选手），轰动一时■■★◆■◆。

　　这篇文章总结了过去十年中在深度学习领域具有影响力的论文■★◆，从 ReLU◆★■◆、AlexNet、GAN 到 Transformer、BERT 等■■★■★★。每一年还有很多荣誉提名，包括了众多名声在外的研究成果。

　　在未来的几年里★◆■，人们对于神经网络的理解还会不断增加★■■★■。人工智能的前景还是一片光明：深度学习是 AI 领域里最有力的工具，它会使我们进一步接近真正的智能◆■■◆★。

　　但是神经网络也有其缺点：它们需要大量已标注数据进行续联，无法解释自身的推断机制■■■，难以推广到单个任务之外◆★★■■■。不过因为深度学习的推动，AI 领域快速发展，越来越多的研究者正在致力于应对这些挑战■■★。

　　这篇论文介绍了注意力机制的思路。与其将所有信息压缩到一个 RNN 的隐层中，不如将整个语境保存在内存中。这使得所有的输出都能和输入对应。除了在机器翻译中使用外★■◆★★◆，attention 机制还被用于 GAN 等模型中。

　　AlexNet 是一个 8 层的卷积神经网络■◆■★■◆，使用 ReLU 激活函数，总共有 6 千万参数量。AlexNet 的最大贡献在于证明了深度学习的能力。它也是第一个使用并行计算和 GPU 进行加速的网络。

　　这个想法很简单■★★■◆■：将输入（input）从卷积层的每个块添加到输出（output）。残差网络之后的启示是，神经网络不应分解为更多的层数，在最不理想的情况下，其他层可以简单设置为恒等映射（identity mapping）★■★■◆。但在实际情况中，更深层的网络常常在训练上遇到困难。残差网络让每一层更容易学习恒等映射◆■◆，并且还减少了梯度消失的问题。

　　在这十年中，伴随着计算能力和大数据方面的发展，深度学习已经攻克了许多曾经让我们感到棘手的问题，尤其是计算机视觉和自然语言处理方面。此外，深度学习技术也越来越多地走进我们的生活，变得无处不在。

　　Adam 由于其易微调的特性而被广泛使用。它基于对每个参数的不同学习率进行适应这种思想★■◆■★。虽然近来有对 Adam 性能提出质疑的论文出现，但它依然是深度学习中最受欢迎的目标函数。

　　在 ImageNet 上，AlexNet 取得了很好的表现★◆◆◆■■。它将识别错误率从 26.2% 降到了 15.3%。显著的性能提升吸引了业界关注深度学习，使得 AlexNet 成为了现在这一领域引用最多的论文。

　　因为深度学习和基于梯度的神经网络出现技术突破，过去十年是人工智能高速发展的一段时期◆■◆★■。这很大程度上是因为芯片算力的显著提高★★◆★■◆，神经网络正在变得越来越大■★，性能也越来越强。从计算机视觉到自然语言处理◆■，新的方法已经大面积取代了传统的 AI 技术。

　　众多 CNN 架构都在争夺「头把交椅」，以下是一部分具有代表意义的样本：

　　本文介绍了一种新的语言表征模型 BERT——来自 Transformer 的双向编码器表征。与最近的语言表征模型不同◆★■◆■，BERT 旨在基于所有层的左、右语境来预训练深度双向表征。BERT 是首个在大批句子层面和 token 层面任务中取得当前最优性能的基于微调的表征模型，其性能超越许多使用任务特定架构的系统，刷新了 11 项 NLP 任务的当前最优性能记录◆◆★■。

　　尽管并不复杂，但残差网络很大程度上优于常规的 CNN 架构，尤其在应用于更深层的网络上时。

　　生成对抗网络（GAN）的成功在于它能够生成逼真图片。这一网络通过使用生成器和判别器之间的最小最大（minimax）博弈，GAN 能够建模高纬度、复杂的数据分布■★★。在 GAN 中◆■■★■，生成器用于生成假的样本，而判别器进行判断（是否为生成数据）。

　　以往的 Transformer 网络由于受到上下文长度固定的限制★■★◆■，学习长期以来关系的潜力有限★★■◆。本文提出的新神经架构 Transformer-XL 可以在不引起时间混乱的前提下◆◆■■，可以超越固定长度去学习依赖性◆◆，同时还能解决上下文碎片化问题。

　　最初 ResNet 的设计是用来处理深层 CNN 结构中梯度消失和梯度爆炸的问题，如今 Residual Block 已经成为了几乎所有 CNN 结构中的基本构造★★■。

　　ImageNet 是斯坦福大学李飞飞等人完成的一个用于图像识别的数据集，是计算机视觉领域检验模型性能的基准数据集。

　　作为 AlphaGo 的后继版本，2017 年 10 月，DeepMind 发布最新强化版的 AlphaGo Zero，这是一个无需用到人类专业棋谱的版本，比之前的版本都强大。通过自我对弈，AlphaGo Zero 经过三天的学习就超越了 AlphaGo Lee 版本的水平，21 天后达到 AlphaGo Maseter 的实力，40 天内超越之前所有版本。

　　DeepMind 在这一年提出的用 DQN 玩雅达利游戏开启了深度强化学习研究的大门。强化学习过去大多数情况下用在低维环境中，很难在更复杂的环境中使用◆■◆。雅达利游戏是第一个强化学习在高维环境中的应用。这一研究提出了 Deep Q-learning 算法，使用了一个基于价值的奖励函数。

　　近日，基于腾讯天美工作室开发的热门 MOBA 类手游《王者荣耀》◆■◆，腾讯 AI Lab 公布了一项用深度强化学习来为智能体预测游戏动作研究成果，在机器之心最新的一期 AAAI 2020 线上分享中◆■★，我们邀请到了论文一作★■、腾讯 AI Lab AI+游戏领域高级研究员叶德珩博士为大家做解读■■★★■。

　　这是计算机围棋程序第一次在全局棋盘（19 × 19）且无让子的情况下击败了人类职业棋手。2016 年 3 月★◆，通过自我对弈进行练习的加强版 AlphaGo 在比赛中以 4: 1 击败了世界围棋冠军李世石，成为第一个在无让子情况下击败围棋职业九段棋手的计算机程序，载入史册■★。赛后，AlphaGo 被韩国棋院授予名誉职业九段的称号。

应用实例

告别2019：属于深度学习的十年那些我们必须知道的经典