钛媒体PRO专业版_钛媒体官方网站

第二课：企业应该选择专用集群还是通用集群？

于洋 / 深度学习系统面临的挑战

第二课：企业应该选择专用集群还是通用集群？

小欣：这节课，于洋老师会为我们讲解企业应该选择专用集群还是通用集群。

于洋：深度学习的专用集群地球上没有几个企业能真正玩得起。比如说百度的机器翻译系统，可能会用32块K40的GPU做十天左右的训练；谷歌的机器翻译用了96块K80做GPU训练；AlphaGo其实用了50块GPU训练了一个月。这些昂贵的使用成本是初创企业所不能承受的也是不应该承受的。

为什么像百度、谷歌或者微软之类的大公司可以承受这样成本呢？其实原因比较简单的，这些公司深度学习在产品线里应用是比较广的。

大家如果调试过深度学习任务就可以很明显知道，深度学习任务是有一定的资源使用周期。比如在实验刚开始的时候用户可能从大量的数据中采样出一个小的样本集合，在这个小的样本集合里调通一个比较好的模型。

在这个阶段机器的使用量其实是不大的，可能只有单台机器或者几块显卡。之后为了验证这个模型的效果，可能会将全量的数据进行线下的训练也就是用一个专用的深度学习集群去做训练，在这个阶段可能会提交几十到上百个计算机机器的训练任务，这些机器每一台都可能有数块显卡。

用户的模型在线下训练中得以验证正确，在大数据集上可以再对模型进行一些精细化调整从而将模型打造成可以用来做线上预测的状态。

线上预测时使用的机器数量明显要少于训练时的机器数量，这是因为预测的时候其实不需要将神经网络的前馈和反馈全跑一遍，也不需要去反复的跑训练集。

在这个预测模型上线之后，收集到用户提供的新的数据和真实的反馈。我们将这些日志进行收集从而进行一些增量训练，进而让我们的模型越来越好。在增量训练之后就是更新预测模型、预测和增量训练的再一个循环过程。

可以看到一个初创企业如果只有少数的几个深度学习任务，由于深度学习任务的周期性专用的深度学习集群一定不会有非常高的使用率，大体上能有20%的使用率就已经很不错了。

针对创业创新的人员，其实部署一个专用的AI集群成本是非常高的，然而使用率是非常低的。专用的AI集群在我们看来只适合于大型的互联网公司。而且这个互联网公司要有多种多样的AI业务。如果有少量的AI业务的公司或者是初创型企业，我们推荐使用通用集群去做深度学习的训练集群。

小欣：下节课，于洋老师会为我们讲解通用AI集群的搭建方法。

【版权归钛媒体所有，未经许可不得转载】

分享课程：

微信扫码

大家都在学

72问

精品小课

精品小课