钛媒体PRO专业版_钛媒体官方网站

第三课：如何提高系统的VC维？

陈雨强 / 人工智能在工业界应用的必经之路

第三课：如何提高系统的VC维？

小欣：这节课，陈雨强老师会为我们讲解如何提高VC维。

陈雨强：我们知道机器学习等于数据+特征+模型。如果说我已经有了很多的数据，提升VC维的途径就只有两条——从特征和模型的角度。

我们把特征分成两类：一类叫做宏观特征。描述的统计类特征，比如说整体的点击率或者整体统计系统这样的特征；另一类特征是微观特征。最典型的微观特征是ID类的特征，每个人都会有这样的特征，每个物品也会有一个ID，然后人和物品的组合也会有这样的ID类特征。相应的模型也会分成两类：一类是简单的模型，比方说线性模型；另一类是复杂模型，比如说深度学习模型。

这里我们引入机器学习四个象限的概念：

第一象限是简单模型加上宏观特征。这是我们传统的专家系统和统计模型所在的范畴，大家可能比较熟悉的一些传统的机器学习数据集比如说UCI就是典型的这个象限内的。这大概是七八十年代的数据集，每个数据集里面有一千个左右的训练数据，特征维度也不高、分的类数也并不多，在这样的一个数据集里面统计模型会比较盛行。它主要解决的问题是怎么样找出特征之间的关系，以及各自的关联度。

第二象限是简单模型加上复杂特征。这里面最成功的案例可能就是谷歌的Adwords。谷歌的Adwords里面有上千亿的特征，取得了非常大的成功，给谷歌带来了很多的收益占据谷歌收入的70%以上。同时谷歌的展示广告也使用了同样的技术并且占据剩下收入的20%。这样的模型不仅是在谷歌在整个互联网广告中都是被使用最广泛的一个技术。

第三象限是使用复杂模型、宏观特征。这里最典型的代表是雅虎news和bing这样的系统。bing的广告在2013年提出他们的BPR模型，来去刻画每个特征的知信度。雅虎也是第三象限最忠实的支持者之一，大家所熟悉的COEC就来自于这样的模型，雅虎还设计了很多增强学习的机制比如说多臂老虎机，这也是这个里面最成功的应用之一。

第四象限是复杂模型和微观特征。现在还是一个非常热门的研究领域，里面最难的一个问题是如何在这么大规模的特征情况下使用非线性模型。计算量是一个很大的一个难点，比方说如果我有上千亿的特征，我的节点有上千个，我可能需要上万亿甚至更多的参数才能保存下来这个模型。这个可能不管是从内存上还是计算上都是不可接受的，所以这是一个非常热门的研究领域，非常多的研究机构正在这个方面进行尝试。

我们现在讲一下如何沿着第三象限就是复杂模型和宏观特征这条路来优化模型。这条路主要是由学术界主导，这样的模型主要来自于 ICML、NIPS、ICLR这样的会议，非线性有三把宝剑分别是Kernel、Boosting、Neural Network。Boosting最成功的是现在熟知的GBDT；Kernel比较成功的是SVM里面流行的RBF Kernel；Neural network比较流行的现在最成功的深度学习。现在科学家为了实验的方便，对工程的实现能力要求并不是特别的高，大部分的模型是单机科学家在做，要解决的实际问题是数据分布式和降低分布式通信带来overhead这样的问题。

小欣：下节课，陈雨强老师会为我们讲解如何从模型角度提高VC维。

【版权归钛媒体所有，未经许可不得转载】