深度学习如何找到训练最优权重

2024-05-17

1. 深度学习如何找到训练最优权重

AlphaGo依靠精确的专家评估系统（value network）:专家系统是一个智能计算机程序系统，其内部含有大量的某个领域专家水平的知识与经验，能够利用人类专家的知识和解决问题的方法来处理该领域问题。
基于海量数据的深度神经网络（policy network）:多层的好处是可以用较少的参数表示复杂的函数。在监督学习中，以前的多层神经网络的问题是容易陷入局部极值点。如果训练样本足够充分覆盖未来的样本，那么学到的多层权重可以很好的用来预测新的测试样本。但是很多任务难以得到足够多的标记样本，在这种情况下，简单的模型，比如线性回归或者决策树往往能得到比多层神经网络更好的结果。非监督学习中，以往没有有效的方法构造多层网络。多层神经网络的顶层是底层特征的高级表示，比如底层是像素点，上一层的结点可能表示横线，三角； 而顶层可能有一个结点表示人脸。
传统的人工智能方法蒙特卡洛树搜索的组合:是一种人工智能问题中做出最优决策的方法，一般是在组合博弈中的行动（move）规划形式。它结合了随机模拟的一般性和树搜索的准确性。

深度学习如何找到训练最优权重

2. 深度学习权重初始化为什么要随机

为了获得更多的特征
以卷积神经网络为例，如果你初试化两个卷积核权值都一样，那么在一次训练后两个卷积核变化都一样，卷积后的特征层都一样；如果你定义了100个一样的卷积核本质上只提取了一个特征。
如果你一百个卷积核的权值随机定义，你就能提取100个特征。

3. 权重是0什么意思？

权重是统计学上在被统计数据前乘以的一个数值，当权重为0时，这个数据就被屏蔽了，在最终结果中不会有所显示，但不影响其量数的比值。

权重是0什么意思？

4. 为什么深度学习特征提取出来每列数据都差不多

1：初始化权重有问题，一般初始化为-1至1之间。
2：图片特征太少，应该减少你的卷积核数量。

5. 深度学习能够学会编程吗

深度学习本身是一个非常庞大的知识体系。本文更多想从程序员的视角出发，让大家观察一下深度学习对程序员意味着什么，以及我们如何利用这样一个高速发展的学科，来帮助程序员提升软件开发的能力。
本文根据费良宏在2016QCon全球软件开发大会（上海）上的演讲整理而成。
前言
1973年，美国上映了一部热门的科幻电影《WestWorld》，三年之后又有一个续集叫做《FutureWorld》。这部电影在80年代初被引进到中国叫《未来世界》。那部电影对我来讲简直可以说得上是震撼。影片中出现了很多机器人，表情丰富的面部下面都是集成电路板。这让那时候的我觉得未来世界都是那么遥远、那么神秘。
时间到了2016年，很多朋友可能都在追看HBO斥巨资拍摄的同一题材的系列剧《WestWorld》。如果前两部电影还是局限在机器人、人工智能这样的话题，2016年的新剧则在剧情和人工智能的思考方面有了很大的突破。不再渲染机器人是否会威胁到人类，而是在探讨“Dreamsaremainlymemories”这一类更具哲理的问题。
“记忆究竟如何影响了智能”这个话题非常值得我们去思考，也给我们一个很好的启示——今天，人工智能领域究竟有了怎样的发展和进步。
今天我们探讨的话题不仅仅是简单的人工智能。如果大家对深度学习感兴趣，我相信各位一定会在搜索引擎上搜索过类似相关的关键字。我在Google上以deeplearning作为关键字得到了2,630万个搜索的结果。这个数字比一周之前足足多出了300多万的结果。这个数字足以看得出来深度学习相关的内容发展的速度，人们对深度学习的关注也越来越高。
从另外的一个角度，我想让大家看看深度学习在市场上究竟有多么热门。从2011年到现在一共有140多家专注人工智能、深度学习相关的创业公司被收购。仅仅在2016年这种并购就发生了40多起。
其中最疯狂的是就是Google，已经收购了 11 家人工智能创业公司，其中最有名的就是击败了李世石九段的 DeepMind。排名之后的就要数 Apple、Intel以及Twitter。以Intel 公司为例，仅在今年就已经收购了 3 家创业公司，Itseez、Nervana 和 Movidius。这一系列大手笔的并购为了布局人工智能以及深度学习的领域。
当我们去搜索深度学习话题的时候，经常会看到这样的一些晦涩难懂的术语：Gradient descent（梯度下降算法）、Backpropagation（反向传播算法）、Convolutional Neural Network（卷积神经网络）、受限玻耳兹曼机（Restricted Boltzmann Machine）等。
如打开任何一篇技术文章，你看到的通篇都是各种数学公式。大家看到如下左边的图，其实并不是一篇高水准的学术论文，而仅仅是维基百科关于玻耳兹曼机的介绍。维基百科是科普层面的内容，内容复杂程度就超过了大多数数学知识的能力。
在这样的背景之下，我今天的的话题可以归纳成三点：第一，我们为什么要学习深度学习；第二，深度学习最核心的关键概念就是神经网络，那么究竟什么是神经网络；第三，作为程序员，当我们想要成为深度学习开发者的时候，我们需要具备怎样的工具箱，以及从哪里着手进行开发。
为什么要学习深度学习
首先，我们谈谈为什么要学习深度学习。在这个市场当中，最不缺乏的就是各种概念以及各种时髦新技术的词汇。深度学习有什么不一样的地方？我非常喜欢AndrewNg（吴恩达）曾经用过的一个比喻。
他把深度学习比喻成一个火箭。这个火箭有一个最重要的部分，就是它的引擎，目前来看在这个领域里面，引擎的核心就是神经网络。大家都知道，火箭除了引擎之外还需要有燃料，那么大数据其实就构成了整个火箭另外的重要组成部分——燃料。以往我们谈到大数据的时候，更多是强调存储和管理数据的能力，但是这些方法和工具更多是对于以往历史数据的统计、汇总。
而对于今后未知的东西，这些传统的方法并不能够帮助我们可以从大数据中得出预测的结论。如果考虑到神经网络和大数据结合，我们才可能看清楚大数据真正的价值和意义。AndrewNg就曾经说过“我们相信（神经网络代表的深度学习）是让我们获得最接近于人工智能的捷径”。这就是我们要学习深度学习的一个最重要的原因。
其次，随着我们进行数据处理以及运算能力的不断提升，深度学习所代表的人工智能技术和传统意义上人工智能技术比较起来，在性能上有了突飞猛进的发展。这主要得益于在过去几十间计算机和相关产业不断发展带来的成果。在人工智能的领域，性能是我们选择深度学习另一个重要的原因。
这是一段Nvidia在今年公布的关于深度学习在无人驾驶领域应用的视频。我们可以看到，将深度学习应用在自动驾驶方面，仅仅经历了3千英里的训练，就可以达到什么样的程度。在今年年初进行的实验上，这个系统还不具备真正智能能力，经常会出现各种各样的让人提心吊胆的状况，甚至在某些情况下还需要人工干预。
但经过了3千英里的训练之后，我们看到在山路、公路、泥地等各种复杂的路况下面，无人驾驶已经有了一个非常惊人的表现。请大家注意，这个深度学习的模型只经过了短短几个月、3千英里的训练。
如果我们不断完善这种模型的话，这种处理能力将会变得何等的强大。这个场景里面最重要的技术无疑就是深度学习。我们可以得出一个结论：深度学习可以为我们提供强大的能力，如果程序员拥有了这个技术的话，无异于会让每个程序员如虎添翼。
神经网络快速入门
如果我们对于学习深度学习没有任何疑虑的话，接下来就一定会关心我需要掌握什么样的知识才能让我进入到这个领域。这里面最重要的关键技术就是“神经网络”。说起“神经网络”，容易混淆是这样两个完全不同的概念。
一个是生物学神经网络，第二个才是我们今天要谈起的人工智能神经网络。可能在座的各位有朋友在从事人工智能方面的工作。当你向他请教神经网络的时候，他会抛出许多陌生的概念和术语让你听起来云里雾里，而你只能望而却步了。
对于人工智能神经网络这个概念，大多数的程序员都会觉得距离自己有很大的距离。因为很难有人愿意花时间跟你分享神经网络的本质究竟是什么。而你从书本上读的到的理论和概念，也很让你找到一个清晰、简单的结论。
今天就我们来看一看，从程序员角度出发神经网络究竟是什么。我第一次知道神经网络这个概念是通过一部电影——1991年上映的《终结者2》。男主角施瓦辛格有一句台词：
“MyCPUisaneural-netprocessor;alearningcomputer.”（我的处理器是一个神经处理单元，它是一台可以学习的计算机)。从历史来看人类对自身智力的探索，远远早于对于神经网络的研究。
1852年，意大利学者因为一个偶然的失误，将人类的头颅掉到硝酸盐溶液中，从而获得第一次通过肉眼关注神经网络的机会。这个意外加速了对人类智力奥秘的探索，开启了人工智能、神经元这样概念的发展。
生物神经网络这个概念的发展，和今天我们谈的神经网络有什么关系吗？我们今天谈到的神经网络，除了在部分名词上借鉴了生物学神经网络之外，跟生物学神经网络已经没有任何关系，它已经完全是数学和计算机领域的概念，这也是人工智能发展成熟的标志。这点大家要区分开，不要把生物神经网络跟我们今天谈到的人工智能有任何的混淆。
90年代中期，由Vapnik等人提出了支持向量机算法（Support Vector Machines，支持向量机）。很快这个算法就在很多方面体现出了对比神经网络的巨大优势，例如：无需调参、高效率、全局最优解等。基于这些理由，SVM算法迅速打败了神经网络算法成为那个时期的主流。而神经网络的研究则再次陷入了冰河期。
在被人摒弃的十年里面，有几个学者仍然在坚持研究。其中很重要的一个人就是加拿大多伦多大学的Geoffery Hinton教授。2006年，他的在著名的《Science》杂志上发表了论文，首次提出了“深度信念网络”的概念。
与传统的训练方式不同，“深度信念网络”有一个“预训练”（pre-training）的过程，这可以方便的让神经网络中的权值找到一个接近最优解的值，之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。在他的论文里面，他给多层神经网络相关的学习方法赋予了一个新名词— “深度学习”。
很快，深度学习在语音识别领域崭露头角。接着在2012年，深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千个类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了将近11个百分点。
这个结果充分证明了多层神经网络识别效果的优越性。从那时起，深度学习就开启了新的一段黄金时期。我们看到今天深度学习和神经网络的火热发展，就是从那个时候开始引爆的。
利用神经网络构建分类器，这个神经网络的结构是怎样的？
其实这个结构非常简单，我们看到这个图就是简单神经网络的示意图。神经网络本质上就是一种“有向图”。图上的每个节点借用了生物学的术语就有了一个新的名词 – “神经元”。连接神经元的具有指向性的连线（有向弧）则被看作是“神经”。这这个图上神经元并不是最重要的，最重要的是连接神经元的神经。每个神经部分有指向性，每一个神经元会指向下一层的节点。
节点是分层的，每个节点指向上一层节点。同层节点没有连接，并且不能越过上一层节点。每个弧上有一个值，我们通常称之为”权重“。通过权重就可以有一个公式计算出它们所指的节点的值。这个权重值是多少？我们是通过训练得出结果。它们的初始赋值往往通过随机数开始，然后训练得到的最逼近真实值的结果作为模型，并可以被反复使用。这个结果就是我们说的训练过的分类器。
节点分成输入节点和输出节点，中间称为隐层。简单来说，我们有数据输入项，中间不同的多个层次的神经网络层次，就是我们说的隐层。之所以在这样称呼，因为对我们来讲这些层次是不可见的。输出结果也被称作输出节点，输出节点是有限的数量，输入节点也是有限数量，隐层是我们可以设计的模型部分，这就是最简单的神经网络概念。
如果简单做一个简单的类比，我想用四层神经网络做一个解释。左边是输入节点，我们看到有若干输入项，这可能代表不同苹果的RGB值、味道或者其它输入进来的数据项。中间隐层就是我们设计出来的神经网络，这个网络现在有不同的层次，层次之间权重是我们不断训练获得一个结果。
最后输出的结果，保存在输出节点里面，每一次像一个流向一样，神经是有一个指向的，通过不同层进行不同的计算。在隐层当中，每一个节点输入的结果计算之后作为下一层的输入项，最终结果会保存在输出节点上，输出值最接近我们的分类，得到某一个值，就被分成某一类。这就是使用神经网络的简单概述。
除了从左到右的形式表达的结构图，还有一种常见的表达形式是从下到上来表示一个神经网络。这时候，输入层在图的最下方，输出层则在图的最上方。从左到右的表达形式以AndrewNg和LeCun的文献使用较多。而在Caffe框架里则使用的则是从下到上的表达。
简单来说，神经网络并不神秘，它就是有像图，利用图的处理能力帮助我们对特征的提取和学习的过程。2006年Hinton的那篇著名的论文中，将深度学习总结成三个最重要的要素：计算、数据、模型。有了这三点，就可以实现一个深度学习的系统。
程序员需要的工具箱
对于程序员来说，掌握理论知识是为了更好的编程实践。那就让我们看看，对于程序员来说，着手深度学习的实践需要准备什么样的工具。
硬件
从硬件来讲，我们可能需要的计算能力，首先想到的就是CPU。除了通常的CPU架构以外，还出现了附加有乘法器的CPU，用以提升计算能力。此外在不同领域会有DSP的应用场景，比如手写体识别、语音识别、等使用的专用的信号处理器。还有一类就是GPU，这是一个目前深度学习应用比较热门的领域。最后一类就是FPGA（可编程逻辑门阵列）。
这四种方法各有其优缺点，每种产品会有很大的差异。相比较而言CPU虽然运算能力弱一些，但是擅长管理和调度，比如读取数据，管理文件，人机交互等，工具也丰富。DSP相比而言管理能力较弱，但是强化了特定的运算能力。
这两者都是靠高主频来解决运算量的问题，适合有大量递归操作以及不便拆分的算法。GPU的管理能力更弱一些，但是运算能力更强。但由于计算单元数量多，更适合整块数据进行流处理的算法。
FPGA在管理与运算处理方面都很强，但是开发周期长，复杂算法开发难度较大。就实时性来说，FPGA是最高的。单从目前的发展来看，对于普通程序员来说，现实中普遍采用的计算资源就还是是CPU以及GPU的模式，其中GPU是最热门的领域。
这是我前天为这次分享而准备的一个AWS 上p2的实例。仅仅通过几条命令就完成了实例的更新、驱动的安装和环境的设置，总共的资源创建、设置时间大概在10分钟以内。而之前，我安装调试前面提到的那台计算机，足足花了我两天时间。
另外，从成本上还可以做一个对比。p2.8xLarge 实例每小时的费用是7.2美元。而我自己那台计算机总共的花费了是¥16,904元。这个成本足够让我使用350多个小时的p2.8xLarge。在一年里使用AWS深度学习站就可以抵消掉我所有的付出。随着技术的不断的升级换代，我可以不断的升级我的实例，从而可以用有限的成本获得更大、更多的处理资源。这其实也是云计算的价值所在。
云计算和深度学习究竟有什么关系？今年的8月8号，在IDG网站上发表了一篇文章谈到了这个话题。文章中做了这样一个预言：如果深度学习的并行能力不断提高，云计算所提供的处理能力也不断发展，两者结合可能会产生新一代的深度学习，将带来更大影响和冲击。这是需要大家考虑和重视的一个方向！
软件 
深度学习除了硬件的基础环境之外。程序员会更关心与开发相关的软件资源。这里我罗列了一些曾经使用过的软件框架和工具。
 Scikit-learn是最为流行的一个Python机器学习库。它具有如下吸引人的特点：简单、高效且异常丰富的数据挖掘/数据分析算法实现；  基于NumPy、SciPy以及matplotlib，从数据探索性分析，数据可视化到算法实现，整个过程一体化实现；开源，有非常丰富的学习文档。
Caffe专注在卷及神经网络以及图像处理。不过Caffe已经很久没有更新过了。这个框架的一个主要的开发者贾扬清也在今年跳槽去了Google。也许曾经的霸主地位要让位给他人了。
Theano 是一个非常灵活的Python 机器学习的库。在研究领域非常流行，使用上非常方便易于定义复杂的模型。Tensorflow 的API 非常类似于Theano。我在今年北京的QCon 大会上也分享过关于Theano 的话题。
Jupyter notebook 是一个很强大的基于ipython的python代码编辑器，部署在网页上，可以非常方便的进行交互式的处理，很适合进行算法研究合数据处理。
Torch 是一个非常出色的机器学习的库。它是由一个比较小众的lua语言实现的。但是因为LuaJIT 的使用，程序的效率非常出色。Facebook在人工智能领域主打Torch，甚至现在推出了自己的升级版框架Torchnet。
深度学习的框架非常之多，是不是有一种乱花渐欲迷人眼的感觉？我今天向各位程序员重点介绍的是将是TensorFlow。这是2015年谷歌推出的开源的面向机器学习的开发框架，这也是Google第二代的深度学习的框架。很多公司都使用了TensorFlow开发了很多有意思的应用，效果很好。
用TensorFlow可以做什么？答案是它可以应用于回归模型、神经网络以深度学习这几个领域。在深度学习方面它集成了分布式表示、卷积神经网络(CNN)、递归神经网络(RNN) 以及长短期记忆人工神经网络（Long-Short Term Memory, LSTM）。
关于Tensorflow 首先要理解的概念就是Tensor。在辞典中对于这个词的定义是张量，是一个可用来表示在一些向量、标量和其他张量之间的线性关系的多线性函数。实际上这个表述很难理解，用我自己的语言解释Tensor 就是“N维数组”而已。
使用 TensorFlow, 作为程序员必须明白 TensorFlow这样几个基础概念：它使用图 (Graph) 来表示计算任务；在被称之为 会话 (Session) 的上下文 (context) 中执行图；使用 Tensor 表示数据；通过 变量 (Variable) 维护状态；使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据。
一句话总结就是，TensorFlow 就是有状态图的数据流图计算环境，每个节点就是在做数据操作，然后提供依赖性和指向性，提供完整数据流。
TensorFlow安装非常简单，但官网提供下载的安装包所支持的CUDA 的版本是7.5。考虑到CUDA 8 的让人心动的新特以及不久就要正式发布的现状。或许你想会考虑立即体验CUDA 8，那么就只能通过编译Tensorflow源代码而获得。目前TensorFlow已经支持了Python2.7、3.3+。
此外，对于使用Python 语言的程序员还需要安装所需要的一些库，例如：numpy、protobuf等等。对于卷积处理而言，cuDNN是公认的性能最好的开发库，请一定要安装上。常规的Tensorsorflow的安装很简单，一条命令足矣：
$ pip3 install —upgrade https://storage.233.wiki/tensorflow/linux/cpu/tensorflow-0.11.0rc0-cp35-cp35m-linux_x86_64.whl
如果想评估一下或者简单学习一下，还可以通过Docker进行安装，安装的命令如下：
$ docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow
TensorFlow有很多优点。首先，目前为止，深度学习的开发框架里面TensorFlow的文档做的最好，对程序员学习而言是非常好的一点。第二，TensorFlow有丰富的参考实例，作为参考学习起来非常容易。
第三，开发者社区活跃，在任何一个深度学习的社区里，都有大量关于TensorFlow的讨论。第四，谷歌的支持力度非常大，从2015年到现在升级速度非常快，这是其他开源框架远远达不到的结果。
参考TensorFlow的白皮书，我们会看到未来TensorFlow还将会有巨大的发展潜力。让我特别感兴趣是这两个方向。第一，支持跨多台机器的 parallelisation。尽管在0.8版本中推出了并行化的能力，但是目前还不完善。随着未来不断发展，依托云计算的处理能力的提升这个特性将是非常让人振奋的。
第二，支持更多的开发语言，对于开发者来说这是一个绝大的利好，通过使用自己擅长的语言使用TensorFlow应用。这些开发语言将会扩展到Java、Lua以及R 等。
在这里我想给大家展示一个应用Tensorflow 的例子。这个例子的代码托管在这个网址上 https://github.com/anishathalye/neural-style。白俄罗斯的现代印象派艺术家Leonid Afremov善于用浓墨重彩来表现都市和风景题材，尤其是其雨景系列作品。他习惯用大色块的铺陈来营造光影效果，对反光物体和环境色的把握非常精准。
于是我就找到了一张上海东方明珠电视塔的一张摄影作品，我希望通过Tensorflow 去学习一下Leonid Afremov 的绘画风格，并将这张东方明珠的照片处理成那种光影色彩丰富的作品风格。利用Tensorflow 以及上面提到的那个项目的代码，在一个AWS 的p2类型的实例上进行了一个一千次的迭代，于是就得到了下图这样的处理结果。
这个处理的代码只有350行里，模型使用了一个成名于2014年ImageNet比赛中的明星 VGG。这个模型非常好，特点就是“go depper”。
TensorFlow 做出这样的作品，并不仅仅作为娱乐供大家一笑，还可以做更多有意思的事情。将刚才的处理能力推广到视频当中，就可以看到下图这样的效果，用梵高著名的作品”星月夜“的风格就加工成了这样新的视频风格。
可以想象一下，如果这种处理能力在更多领域得以应用，它会产生什么样的神奇结果？前景是美好的，让我们有无限遐想。事实上我们目前所从事的很多领域的应用开发都可以通过使用神经网络和深度学习来加以改变。对于深度学习而言，掌握它并不是难事。每一个程序员都可以很容易的掌握这种技术，利用所具备的资源，让我们很快成为深度学习的程序开发人员。
结束语
未来究竟是什么样，我们没有办法预言。有位作家Ray Kurzweil在2005年写了《奇点临近》一书。在这本书里面他明确告诉我们，那个时代很快到来。作为那个时代曙光前的人群，我们是不是有能力加速这个过程，利用我们学习的能力实现这个梦想呢？
中国人工智能的发展
人工智能的时代无疑已经到来，这个时代需要的当然就是掌握了人工智能并将其解决具体问题的工程师。坦率的说，市场上这一类的工程师还属于凤毛麟角。职场上的薪酬待遇可以看得出来这样的工程师的抢手的程度。人工智能这门学科发展到今天，就学术自身而言已经具备了大规模产业化的能力。
所以说，对于工程师而言当务之急就是尽快的掌握应用人工智能的应用技术。当下在互联网上关于人工智能的学习资料可以说已经是“汗牛充栋”，那些具备了快速学习能力的工程师一定会在人工智能的大潮当中脱颖而出。
中国发展人工智能产业的环境已经具备。无论从创业环境、人员的素质乃至市场的机遇而言完全具备了产生产业变革的一切条件。与美国相比较，在人工智能的许多领域中国团队的表现也可以说是不逞多让。就人工智能的技术层面而言，中国的工程师与全球最好的技术团队正处于同一个起跑线上。
时不我待，中国的工程师是有机会在这个领域大展身手的。不过值得注意的是，要切忌两点：一是好高骛远，盲目与国外攀比。毕竟积累有长短，术业有专攻，我们要立足于已有的积累，寻求逐步的突破。二是一拥而上，盲目追求市场的风口。人工智能的工程化需要大量的基础性的积累，并非一蹴而就简单复制就可以成功。
中国的科研技术人员在人工智能领域的成就有目共睹。在王咏刚的一篇文章里面，他统计了从2013年到2015年SCI收录的“深度学习”论文，中国在2014年和2015年超已经超过了美国居于领跑者的位置。
另外一让我感到惊讶的事情，Google的JeffDean在2016年发表过一篇名为《TensorFlow:Asystemforlarge-scalemachinelearning》的论文。文章的22个作者里面，明显是中国名字的作者占已经到了1/5。如果要列举中国人/华人在人工智能领域里的大牛，吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏……很容易就可以说出一大串。
对于中国来说目前的当务之急是人工智能技术的产业化，唯有如此我们才可以讲科研／智力领域的优势转化为整体的、全面的优势。在这一点上，中国是全球最大的消费市场以及制造业强国，我们完全有机会借助市场的优势成为这个领域的领先者。
硅谷创新企业
硅谷虽然去过许多回，但一直无缘在那里长期工作。在人工智能领域的市场我们听到的更多是围绕Google、Apple、Intel、Amazon这样的一些大型科技公司的一举一动。但是在美国市场上还有一大批小型的创业企业在人工智能这个领域有惊艳的表现。仅以硅谷区域的公司为例：
Captricity，提供了手写数据的信息提取；
VIVLab，针对语音识别开发了虚拟助手服务；
TERADEEP，利用FPGA提供了高效的卷积神经网络的方案；
还有提供无人驾驶解决方案的NetraDyne。
这个名单还可以很长，还有许许多多正在利用人工智能技术试图去创造历史的团队正在打造他们的梦想。这些团队以及他们正在专注的领域是值得我们去学习和体会的。

深度学习能够学会编程吗

6. 深度机器学习中的batch的大小对学习效果有何影响

来源：知乎
程引

爱折腾

谈谈深度学习中的 Batch_Size
Batch_Size（批尺寸）是机器学习中一个重要参数，涉及诸多矛盾，下面逐一展开。
首先，为什么需要有 Batch_Size 这个参数？
Batch 的选择，首先决定的是下降的方向。如果数据集比较小，完全可以采用全数据集 （ Full Batch Learning ）的形式，这样做至少有 2 个好处：其一，由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。其二，由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。 Full Batch Learning 可以使用Rprop 只基于梯度符号并且针对性单独更新各权值。
对于更大的数据集，以上 2 个好处又变成了 2 个坏处：其一，随着数据集的海量增长和内存限制，一次性载入所有的数据进来变得越来越不可行。其二，以 Rprop 的方式迭代，会由于各个 Batch 之间的采样差异性，各次梯度修正值相互抵消，无法修正。这才有了后来 RMSProp 的妥协方案。
既然 Full Batch Learning 并不适用大数据集，那么走向另一个极端怎么样？
所谓另一个极端，就是每次只训练一个样本，即 Batch_Size = 1。这就是在线学习（Online Learning）。线性神经元在均方误差代价函数的错误面是一个抛物面，横截面是椭圆。对于多层神经元、非线性网络，在局部依然近似是抛物面。使用在线学习，每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。

可不可以选择一个适中的 Batch_Size 值呢？
当然可以，这就是批梯度下降法（Mini-batches Learning）。因为如果数据集足够充分，那么用一半（甚至少得多）的数据训练算出来的梯度与用全部数据训练出来的梯度是几乎一样的。
在合理范围内，增大 Batch_Size 有何好处？

内存利用率提高了，大矩阵乘法的并行化效率提高。
跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。

盲目增大 Batch_Size 有何坏处？

内存利用率提高了，但是内存容量可能撑不住了。
跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。

调节 Batch_Size 对训练效果影响到底如何？
这里跑一个 LeNet 在 MNIST 数据集上的效果。MNIST 是一个手写体标准库，我使用的是 Theano 框架。这是一个 Python 的深度学习库。安装方便（几行命令而已），调试简单（自带 Profile），GPU / CPU 通吃，官方教程相当完备，支持模块十分丰富（除了 CNNs，更是支持 RBM / DBN / LSTM / RBM-RNN / SdA / MLPs）。在其上层有 Keras 封装，支持 GRU / JZS1, JZS2, JZS3 等较新结构，支持 Adagrad / Adadelta / RMSprop / Adam 等优化算法。

运行结果如上图所示，其中绝对时间做了标幺化处理。运行结果与上文分析相印证：

Batch_Size 太小，算法在 200 epoches 内不收敛。

随着 Batch_Size 增大，处理相同数据量的速度越快。
随着 Batch_Size 增大，达到相同精度所需要的 epoch 数量越来越多。

由于上述两种因素的矛盾， Batch_Size 增大到某个时候，达到时间上的最优。
由于最终收敛精度会陷入不同的局部极值，因此 Batch_Size 增大到某些时候，达到最终收敛精度上的最优。

7. 深度学习为什么不过拟合

深度学习:过拟合

为了得到一致假设而使假设变得过度复杂称为过拟合。想像某种学习算法产生了一个过拟合的分类器，这个分类器能够百分之百的正确分类样本数据（即再拿样本中的文档来给它，它绝对不会分错），但也就为了能够对样本完全正确的分类，使得它的构造如此精细复杂，规则如此严格，以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别。
标准定义：给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。 —-《Machine Learning》Tom M.Mitchell 




假设我们用深度学习来判断西瓜，过拟合会使得你判断西瓜更加严厉，导致在某些西瓜数据上与你准备的数据有些出入（差别并不会太大），从而结果判定不是西瓜。。。


-----------------
深度学习防止过拟合的方法


过拟合即在训练误差很小,而泛化误差很大,因为模型可能过于的复杂,使其”记住”了训练样本,然而其泛化误差却很高,在传统的机器学习方法中有很大防止过拟合的方法,同样这些方法很多也适合用于深度学习中,同时深度学习中又有一些独特的防止过拟合的方法,下面对其进行简单的梳理.
1. 参数范数惩罚
范数正则化是一种非常普遍的方法,也是最常用的方法,假如优化: 

minObj(θ)=L(y,f(x))+αG(θ)

其中L为经验风险,其为在训练样本上的误差,而G为对参数的惩罚,也叫结构风险.α是平衡两者,如果太大则对应的惩罚越大,如过太小,甚至接近与0,则没有惩罚. 
最常用的范数惩罚为L1,L2正则化,L1又被成为Lasso: 

||w||1=|w1|+|w2|+...

即绝对值相加,其趋向于是一些参数为0.可以起到特征选择的作用. 
L2正则化为: 

||w||2=w12+w22+...−−−−−−−−−−−−√

其趋向与,使权重很小.其又成为ridge. 
关于更多可以参考:机器学习中的范数规则化之（一）L0、L1与L2范数

2. 数据增强
让模型泛化的能力更好的最好办法就是使用更多的训练数据进行训练,但是在实践中,我们拥有的数据是有限的,解决这一问题可以人为的创造一些假数据添加到训练集中. 
一个具体的例子: 
在AlexNet中,将256*256图像随机的截取224*224大小,增加了许多的训练样本,同时可以对图像进行左右翻转,增加样本的个数,实验的结果可以可降低1%的误差. 
在神经网络中输入噪声也可以看做是数据增强的一种方式.
3. 提前终止
如下图所示(图片来源deep learning),当随着模型的能力提升,训练集的误差会先减小再增大,这样可以提前终止算法减缓过拟合现象.关于算法的具体流程参考deep learning.

提前终止是一种很常用的缓解过拟合的方法,如在决策树的先剪枝的算法,提前终止算法,使得树的深度降低,防止其过拟合.
4. 参数绑定与参数共享
在卷积神经网络CNN中(计算机视觉与卷积神经网络 ),卷积层就是其中权值共享的方式,一个卷积核通过在图像上滑动从而实现共享参数,大幅度减少参数的个数,用卷积的形式是合理的,因为对于一副猫的图片来说,右移一个像素同样还是猫,其具有局部的特征.这是一种很好的缓解过拟合现象的方法. 
同样在RNN中用到的参数共享,在其整条时间链上可以进行参数的共享,这样才使得其能够被训练.
5. bagging 和其他集成方法
其实bagging的方法是可以起到正则化的作用,因为正则化就是要减少泛化误差,而bagging的方法可以组合多个模型起到减少泛化误差的作用. 
在深度学习中同样可以使用此方法,但是其会增加计算和存储的成本.
6. Dropout
Dropout提供了一种廉价的Bagging集成近似,能够训练和评估指数级数量的神经网络。dropout可以随机的让一部分神经元失活,这样仿佛是bagging的采样过程,因此可以看做是bagging的廉价的实现. 
但是它们训练不太一样,因为bagging,所有的模型都是独立的,而dropout下所有模型的参数是共享的. 
通常可以这样理解dropout:假设我们要判别一只猫,有一个神经元说看到有毛就是猫,但是如果我让这个神经元失活,它还能判断出来是猫的话,这样就比较具有泛化的能力,减轻了过拟合的风险.
7. 辅助分类节点(auxiliary classifiers)
在Google Inception V1中,采用了辅助分类节点的策略,即将中间某一层的输出用作分类,并按一个较小的权重加到最终的分类结果中,这样相当于做了模型的融合,同时给网络增加了反向传播的梯度信号,提供了额外的正则化的思想.
8. Batch Normalization
在Google Inception V2中所采用,是一种非常有用的正则化方法,可以让大型的卷积网络训练速度加快很多倍,同事收敛后分类的准确率也可以大幅度的提高. 
BN在训练某层时,会对每一个mini-batch数据进行标准化(normalization)处理,使输出规范到N(0,1)的正太分布,减少了Internal convariate shift(内部神经元分布的改变),传统的深度神经网络在训练是,每一层的输入的分布都在改变,因此训练困难,只能选择用一个很小的学习速率,但是每一层用了BN后,可以有效的解决这个问题,学习速率可以增大很多倍.
未完待续…
参考资料:
deep learning
tensorflow实战
机器学习中的范数规则化之（一）L0、L1与L2范数

深度学习为什么不过拟合

8. 深度学习结果与输入数据顺序有关吗

在做完简单的归一化后，白化通常会被用来作为接下来的预处理步骤，它会使我们的算法工作得更好。实际上许多深度学习算法都依赖于白化来获得好的特征。
在进行 PCA/ZCA 白化时，首先使特征零均值化是很有必要的，这保证了  \frac{1}{m} \sum_i x^{(i)} = 0 。特别地，这一步需要在计算协方差矩阵前完成。（唯一例外的情况是已经进行了逐样本均值消减，并且数据在各维度上或像素上是平稳的。）
接下来在 PCA/ZCA 白化中我们需要选择合适的 epsilon（回忆一下，这是规则化项，对数据有低通滤波作用）。 选取合适的 epsilon 值对特征学习起着很大作用，下面讨论在两种不同场合下如何选取 epsilon：

深度学习 如何找到训练最优权重

1. 深度学习 如何找到训练最优权重

2. 深度学习权重初始化为什么要随机

3. 权重是0什么意思？

4. 为什么深度学习特征提取出来每列数据都差不多

5. 深度学习能够学会编程吗

6. 深度机器学习中的batch的大小对学习效果有何影响

7. 深度学习为什么不过拟合

8. 深度学习结果与输入数据顺序有关吗

深度学习如何找到训练最优权重

1. 深度学习如何找到训练最优权重