何涛
阿里巴巴技术专家
开源项目一站式图计算平台GraphScope以及分布式内存数据管理引擎Vineyard(CNCF sandbox Project) co-founder 及主要的社区maintainer。致力于云原生大数据相关基础设施软件的研发,在机器学习引擎 mxnet, pytorch,大数据计算引擎 ray, dask, mars 等社区中都有积极参与和贡献。此外,何涛还是 etcd-cpp-apiv3 等一系列开源项目的maintainer。
演讲主题
Vineyard:分布式内存数据管理引擎
Vineyard 是一个专为大数据场景下端到端计算任务设计的分布式数据共享引擎。Vineyard 通过共享内存让中间数据在流水线上各个计算引擎间流动,同时,Vineyard 提供开箱即用的高级数据结构(例如,张量,图)抽象,来方便各个专业系统在数据接口上的开发工作,提升用户研发大数据流水线的效率。此外,Vineyard 提供了 data-aware 的 Kubernetes 调度器插件以及与 Airflow、Dagster、Kedro 等工作流引擎的集成,使现有大数据工作流在 Kubernetes 集群中能够更高效地运行。本次演讲将主要介绍Vineyard想要解决的问题、架构设计与功能实现、用例、以及我们对于云原生环境中提升大数据工作流执行效率的思路。