当前位置:首页 > 科技 >

蚂蚁金服开源ElasticDL:Kubernetes原生的分布式深度学习系统

日期: 来源:第1新闻收集编辑:第1新闻

原标题:蚂蚁金服开源ElasticDL:Kubernetes原生的分布式深度学习系统

9月11日,蚂蚁金服在2019谷歌开发者大会上海站上,宣布开源 ElasticDL,一个基于 TensorFlow 2.0 的 Kubernetes 原生的分布式深度学习系统。这也是业界首个基于TensorFlow 的支持弹性调度的深度学习系统。

ElasticDL 的主要特性是容错性是弹性调度,这是通过研发一个 Kubernetes-native 的框架来调用 TensorFlow 2.0 从而实现的。Kubernetes-native 指的是一个分布式程序调用Kubernetes API 来起止进程;给予了分布式系统更多的调度灵活度。与之对应的做法是为每个分布式框架写一个 Kubernetes operator 来启动分布式作业,比如,Google Cloud 为 TensorFlow 开发了 Kubernetes operator Kubeflow,但Kubeflow不支持弹性调度。

TensorFlow 2.0 的 eager execution API 是 ElasticDL 的另一大助力,使得 ElasticDL 不必像 Uber Horovod 这类为 TensorFlow 1.x 设计的系统一样需要“盗取”作为计算图执行的中间结果的 gradients。

在多人共用计算集群的情况下,支持弹性调度意味着极大提升团队效率和集群的总体利用率。举个比较极端的例子:假设一个集群有N个GPU,而一个任务只使用其中一个,当没有弹性调度时,一个要求所有N个GPU的任务需要等待前一个任务结束才能开始,这个等待时间可能高达数天甚至数周,在等待期间,集群的效用是1/N;而拥有弹性调度能力之后,新的任务可以在N-1个GPU上立刻运行,并且Kubernetes可以在第一个任务完成后将占用的GPU赋予这个任务,在这个案例里,集群整体效用是100%. 因此,在部分案例中,ElasticDL能极大的提升集群利用率。

除此之外,ElasticDL还拥有高效和易用的特性。今年5月份,蚂蚁金服开源了SQLFlow,ElasticDL通过与SQLFlow的联动,实现让AI变得像使用SQL一样简单,SQLFlow把SQL程序翻译成一个ElasticDL程序,让工程师可以用SQL语言描述模型训练和预测过程。

ElasticDL项目负责人王益表示:“ElasticDL 处于研发初期,我们希望尽早开源ElasticDL和尽早分享其设计意图,汇聚来自不同公司和社区的力量,一起探索GoogleTensorFlow2.0和Kubernetes的分布式训练生态,早日实现便捷的端到端的人工智能开发套件。”

蚂蚁金服一直积极参与开源社区共建。自从2011年宣布第一波开源项目以来,开源项目数量每年都有增长。目前蚂蚁金服已经有400多个开源项目,其中,AntDesign项目已获四万多 GitHub 星标,有800多人参与项目建设,SQLFlow、EggJS和SOFA系列也成为社区热门。

相关阅读

热门文章

  • 小米,你为何“芯”事重重?

  • 小米用的什么芯片,小米有芯片吗,小米的芯片怎么样了,小米做芯片,小米9是双芯电池吗,小米8是双芯电池吗,小米4卡芯更换教程,小米的笔怎么换新,小米3卡芯更换视频

最新文章

  • VOOPOO电子烟品牌让全球看见新一代的中国智造

  • 原标题:VOOPOO电子烟品牌让全球看见新一代的中国智造 如果提到电子烟,你会想到什么?2019最火热门的投资领域?还是关于电子烟的硬核科技? 2018年,全球电子烟销量已经超过145亿美元。但其实,最大的消
  • 赛升药业携手Curiato 布局慢病管理产业链板块

  • 原标题:赛升药业携手Curiato 布局慢病管理产业链板块 新京报讯(记者 刘旭)9月11日,赛升药业发布公告称,公司近日与Curiato公司签署《战略合作谅解备忘录》,计划建立战略合作伙伴关系,共同合作开展Cur
  • 上海南京路步行街开街20年,将迎全球最大华为旗舰店

  • 原标题:上海南京路步行街开街20年,将迎全球最大华为旗舰店 2019年9月20日,是南京路步行街开街20周年,有“中华商业第一街”美誉的南京路步行街是中外游客到上海的打卡圣地。20岁生日之际,南京路步