免费领取大会全套PPT    

点此领取

立即参会

李杰

eBay支付风控部门高级经理

西安交通大学计算机科学与技术系本科,北京大学计算机科学与技术系硕士。曾在摩根士丹利、百度、中信证券等公司任职。目前在eBay任支付风控部门高级经理,eBay风控实时特征平台研发负责人。拥有多年支付、清结算、风控大数据相关实战经验。

演讲主题

eBay风控实时特征平台

eBay交易风控业务采用了大量的机器学习模型和规则来应对线上欺诈活动。机器学习模型要求特征平台能快速生成亿级的特征仿真数据用来训练模型,能保证离线仿真数据和在线特征数据一致以防止模型部署之后效果不达预期,能在几十毫秒内完成数百个特征的批量读取以满足实时推理场景的耗时要求;风控规则要求特征平台能在几十分钟内快速发布自定义的特征计算逻辑以应对突发欺诈活动,对于回看窗口为数月的特征,也能在几小时内完成冷启动。 eBay风控实时特征平台是一个支持动态计算范式的智能数据处理引擎。该平台具有高数据准确性、低数据更新延迟、在线离线数据一致等特点,很好地支持了eBay风控领域实时规则决策、实时模型推理、大规模特征仿真回溯、特征冷启动、模型自动化迭代等场景,让eBay能高效灵活地应对各种线上欺诈活动。 该平台技术特点详情如下: 1、高效的数据存储模型。针对Sliding Window和Lastk这两种最为广泛使用的特征类型,该平台提供先进的存储模型达到高效的读写和存储效能。针对Sliding Window特征,通过将“天”、“小时”和“分钟”不同维度数据存入同一个数据存储单元,减少特征批量读取时的数据库IO开销;针对Lastk特征,相较于对特征对象整体进行编解码的传统方案,重新设计了一种基于索引块的数据模型来达成计算和存储模型统一,从而避免特征值更新时的反复编解码,将单Flink 单TM吞吐量提升10倍以上。 2、动态定义特征计算逻辑。除Min、Max、Count、Sum、Distinct、Average、Standard Deviation、Time Decay、ZScore等标准算子之外,借助于该平台提供的DSL,算法团队可以按需定义任意计算逻辑。 3、在线离线数据一致。该平台基于Flink构建低延迟在线计算引擎、基于Spark构建高吞吐离线计算引擎。在线和离线数据的高匹配率主要从如下三方面保证:1)使用DSL来定义特征,并能动态被Flink和Spark执行达成在线离线任务执行逻辑的一致性;2)在线Flink任务消费的Event数据快照被存入离线HDFS文件作为离线Spark任务数据源,确保了在线离线计算引擎数据源的一致性;3)在线Flink任务通过一种智能快照数据模型,结合先进的特征数据模型,来保证即使在基础组件如快照存储文件系统、数据库系统等不稳定情况下仍能保证所有Event数据处理的恰巧一次,离线Spark任务则通过去重机制结合Event快照落库任务的至少一次机制来确保离线数据处理的恰巧一次。利用上述方案,该平台能确保大部分特征的在线离线特征值统计匹配率超过99%。 4、大规模特征仿真回溯。通过理解特征的DSL定义和存储Event快照的Parquet文件头,离线Spark任务能按需加载需要参与计算的Event数据列,结合基于特征查询键的加盐机制、将依赖相同存储单元的特征进行整合并复用中间计算结果、动态优化数据集分片数量减少数据倾斜和避免内存溢出等优化技术,该平台能在1小时内完成亿级特征瞬时值(Point - In - Time)计算。 5、实时特征冷启动。基于高效的大规模仿真回溯能力和在线离线数据一致性,该平台对新特征提供完善的冷启动机制,让需要回看一两年时间窗口的特征数据也能在数小时内完成冷启动并开始服务在线模型和规则。

© boolan.com 博览 版权所有

沪ICP备15014563号-15

沪公网安备31011502003949号