隋吉智
阿里云云原生高级研发工程师
简介:目前在阿里云可观测团队,任高级研发工程师,阿里云Prometheus产品核心研发工程师,在可观测领域尤其指标场景有较丰富经验,针对大规模集群指标采集和处理有较多生产实践积累,采集探针性能调优和稳定性建设有落地实践。在可观测领域的指标场景,针对典型问题和超大规模集群采集需求,提出有效技术解决方案,并在阿里云ASI超大规模集群采集场景落地实践。
演讲主题
阿里云Prometheus分布式采集探针在超大规模集群场景实践
简介:阿里云Prometheus产品采用的采存拆分架构介绍。Master-salve自研分布式采集探针架构设计,低消耗、高性能、超稳定采集探针研发经验,自研HPA横向自扩展能力实现技术。分布式采集探针在阿里云ASI超大规模集群场景落地实践,如何做到可自适应集群采集指标大范围波动情况,如何建设数据齐全度减少告警误报,如何达成低运维、高效性能、高效率采集目标。 大纲: 1.阿里云Prometheus产品采存架构拆分介绍 2.阿里云自研Master-salve分布式采集探针架构设计,HPA横向自扩展原理 3.Master-salve分布式采集探针在阿里云ASI超大规模集群落地实践