违规提示

请您遵循相关法律法规,避免再次出现类似问题

如有任何疑问,请联系support@tmtpost.com

关闭
第二课:企业应该选择专用集群还是通用集群?
于洋 / 深度学习系统面临的挑战
第二课:企业应该选择专用集群还是通用集群?

第二课:企业应该选择专用集群还是通用集群?

小欣:这节课,于洋老师会为我们讲解企业应该选择专用集群还是通用集群。

于洋:深度学习的专用集群地球上没有几个企业能真正玩得起。比如说百度的机器翻译系统,可能会用32块K40的GPU做十天左右的训练;谷歌的机器翻译用了96块K80做GPU训练;AlphaGo其实用了50块GPU训练了一个月。这些昂贵的使用成本是初创企业所不能承受的也是不应该承受的。

为什么像百度、谷歌或者微软之类的大公司可以承受这样成本呢?其实原因比较简单的,这些公司深度学习在产品线里应用是比较广的。

大家如果调试过深度学习任务就可以很明显知道,深度学习任务是有一定的资源使用周期。比如在实验刚开始的时候用户可能从大量的数据中采样出一个小的样本集合,在这个小的样本集合里调通一个比较好的模型。

在这个阶段机器的使用量其实是不大的,可能只有单台机器或者几块显卡。之后为了验证这个模型的效果,可能会将全量的数据进行线下的训练也就是用一个专用的深度学习集群去做训练,在这个阶段可能会提交几十到上百个计算机机器的训练任务,这些机器每一台都可能有数块显卡。

用户的模型在线下训练中得以验证正确,在大数据集上可以再对模型进行一些精细化调整从而将模型打造成可以用来做线上预测的状态。

线上预测时使用的机器数量明显要少于训练时的机器数量,这是因为预测的时候其实不需要将神经网络的前馈和反馈全跑一遍,也不需要去反复的跑训练集。

在这个预测模型上线之后,收集到用户提供的新的数据和真实的反馈。我们将这些日志进行收集从而进行一些增量训练,进而让我们的模型越来越好。在增量训练之后就是更新预测模型、预测和增量训练的再一个循环过程。

可以看到一个初创企业如果只有少数的几个深度学习任务,由于深度学习任务的周期性专用的深度学习集群一定不会有非常高的使用率,大体上能有20%的使用率就已经很不错了。

针对创业创新的人员,其实部署一个专用的AI集群成本是非常高的,然而使用率是非常低的。专用的AI集群在我们看来只适合于大型的互联网公司。而且这个互联网公司要有多种多样的AI业务。如果有少量的AI业务的公司或者是初创型企业,我们推荐使用通用集群去做深度学习的训练集群。

小欣:下节课,于洋老师会为我们讲解通用AI集群的搭建方法。

【版权归钛媒体所有,未经许可不得转载】

分享课程:
大家都在学
72问 有声书系列 / 中国经济2021
精品小课 揭秘黄金投资:2022年以来上涨表现最好的资产之一
精品小课 阿里人力资源体系课
  • 回复

    于洋老师讲的很专业

    2018.02.23 11:32 via iphone

Oh! no

您是否确认要删除该条评论吗?

全部课程 ( 4 )
倒序播放

00:00
/
00:00
X1.0

注册邮箱未验证

我们已向下方邮箱发送了验证邮件,请查收并按提示验证您的邮箱。

如果您没有收到邮件,请留意垃圾邮件箱。

更换邮箱

您当前使用的邮箱可能无法接收验证邮件,建议您更换邮箱

账号合并

经检测,你是“钛媒体”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。