汪浩

Airbnb数据平台团队高级工程师

汪博士是Airbnb数据平台团队高级工程师,专业领域包括可拓展流处理过程,大数据系统,数据挖掘及自然语言处理,目前正在着手构建Airbnb实时流处理框架。汪博士曾供职于IBM Watson实验室,致力于为Watson认知产品建设通用数据平台。

演讲主题

Airbnb大数据平台及实时流处理架构

Airbnb的大数据平台服务于整个公司对于离线和实时数据的需求。我将介绍我们大数据平台在满足这些来自工程师,数据科学家和项目经理的需求时面临的挑战以及解决方案。我将主要讨论数据平台的实时流数据处理架构和建立在 Apache Spark之上的实时流处理框架AirStream。在数据应用中连接离线和实时流数据处理是很常见的需求,也就是所谓的Lambda架构。AirStream提供了一个框架允许用户轻松构建数据应用并满足其对于Lambda架构的需求。用AirStream实现的业务和计算逻辑可以同时轻松应用于实时和离线数据应用中。除此之外,它将多个生态系统与Spark和Spark Streaming集成以满足不同应用场景的需要,如HBase,Elasticsearch,MySQL,DynamoDB,Memcache和Redis,S3和Hive。 最后我将讨论Airbnb的一些实时流数据处理的实际案例。

© boolan.com 博览 版权所有

沪ICP备15014563号-8

沪公网安备31011502003949号