钛媒体PRO专业版_钛媒体官方网站

第二课：如何获得一个好的机器学习系统？

陈雨强 / 人工智能在工业界应用的必经之路

第二课：如何获得一个好的机器学习系统？

小欣：这节课，陈雨强老师会为我们讲解如何获得一个好的机器学习系统。

陈雨强：我们如果想要做一个好的人工智能机器学习系统的话，我们所需要具备的条件有哪些？好的机器学习系统一定是可扩展的机器学习系统。可扩展的机器学习系统并不等于可扩展的系统，这里面最大的区别是什么呢？

最大的区别就是可扩展的机器学习系统，一方面数据处理的吞吐随着集群和机器数量的增加而增加，这是传统的可扩展系统；而另一方面可扩展机器学习系统指的是智能的水平和体验的壁垒随着业务和数据的增加而增加，这个可能是机器学习最不可替代的价值所在。

过去要建立竞争壁垒主要是通过业务的创新、行业的跑马圈地、通过新的渠道来提升效率。这种方式中对于产品本身来说是相对容易被抄袭的，而资本的投入、运营的强度、渠道是否完整是整个公司成功的关键。但是随着数据和AI的普及现在有了一个新的方式，就是通过时间和数据创造壁垒。

比如现在的搜索引擎，即使有人有了百度全部的代码也很难做出一个超过百度体验水平的搜索引擎，因为百度拥有最近十年全中国上十亿人所有的搜索数据。如果没有了这些数据的话，即使有同样的算法也没有办法得到同样的体验水平。从这个角度上来说，将来的竞争壁垒将不仅仅只是在我们的业务上，更会在我们的数据上。有了更多的数据我们就可以通过人工智能产生更高的壁垒，然后拉开更大的差距。

那怎样获得一个高智能水平的可扩展的机器学习系统呢？1960年代到1990年代，Vapnik 和 Chervonenkis提出了“VC维”理论，形式化地描述了机器学习算法对复杂函数拟合的能力。“VC维”类似人脑内的神经元，有越多的神经元代表这个人越聪明。但有越高的智商不一定会有越高的成就，还有一个很关键的因素就是你需要有很多的经历。只有智商比较高同时又很多经历的人才能悟出很多的道理，机器学习“VC维”也是讲的这么一个道理。

过去的数据不是很大，所以随着我们迭代的增加，训练损失函数在不断的下降，测试损失函数会先下降后上升。这个地方我们需要控制VC维，让模型不要共拟合。这好比你是一个比较聪明的孩子，小的时候不能让你过度地思考，因为你的精力比较少，所以非常容易误入歧途。其实比较好的做法是我们使用VC维比较低的模型，让训练的损失和测试的损失函数同时下降，这是我们认为比较好的一个模型。

当然这只是故事的一半，随着时代的不断的发展会发现数据会越来越多，如果我们把横轴替换成数据这个维度，数据从小到大这么一个过程，我们会发现有两条曲线。其中第一条曲线是说，过去的是这条over－fitting的曲线，在数据比较小的时候，我们低VC维的模型比高VC维的模型效果好。因为高VC维的模型会over－fitting，但是随着数据越来越多的时候，高VC维的效果会不断提升而低VC维系统会达到一个上阶，这就是所谓的under－fitting的问题。

在将来大数据的时代，under－fitting可能是更需要关注的一个问题。因为under－fitting会限制你使用大数据，以及限制数据价值的体现。所以说在大数据时代里面我们强调可扩展的概念，智能水平、模型的效果应该随着数据的增加而不断增加，而不是随着数据的增加达到一个瓶颈，我们要设计的系统应该是高VC维的系统。

小欣：下节课，陈雨强老师会为我们讲解如何提高VC维。

【版权归钛媒体所有，未经许可不得转载】