免费领取大会全套PPT    

点此领取

立即参会

蒋菁菁

eBay机器学习模型训练平台技术负责人

深耕机器学习模型训练平台。2018年加入eBay机器学习模型训练平台,参与并负责了eBay机器学习模型训练平台分布式训练功能支持、用户权限管理系统、多集群管理等项目的设计和开发,对模型训练平台有丰富的设计开发经验。对数据平台及其接入有实战经验和深入了解。

演讲主题

eBay搭建机器学习模型训练平台的技术演进和实践

对于企业,机器学习不仅需要数据科学家进行研发,也需要工程师提供一个高效率的平台,简化数据科学家建模流程,加速模型迭代。机器学习包含数据处理、模型训练、部署上线三大部分,每部分都可以有对应的平台。对于模型训练平台,它需要有效利用计算资源,管理实验数据,并和上游的数据平台、下游的部署平台有机结合,满足数据科学家的需求并提高生产力。 在eBay,我们从多年探索实践中逐渐构建了完整的机器学习平台,今天主要介绍其中的基于K8s的云原生模型训练平台Krylov。我们利用k8s能力对HPC/GPU/Hadoop/NFS进行算力调度,资源分配和隔离,并对用户屏蔽底层细节。在此之上,Krylov平台支持交互式的研究和生产化的作业管理,分布式训练,用户权限和配额管理,并提供实验管理系统记录数据科学家每次实验所用到的数据、超参、生成的结果,来帮助挑选最优的实验。在数据平台接入、部署平台集成方面我们也有增强。eBay所有的深度模型训练都是在这个平台上,90%以上的模型训练都是在这里。

© boolan.com 博览 版权所有

沪ICP备15014563号-15

沪公网安备31011502003949号