CC
DevOps Engineer
专注于DevOps领域,9年工作经验,在Linux、网络、Kubernetes等方面有比较深入的研究
Work Experience
技术专家 & DevOps团队Leader
- 负责阿里云、腾讯云以及AWS资源管理
- 参与从0到1运维平台建设,主导资源自动化系统和监控系统的建设
- 主导从0到1容器化平台建设
- 接入层openresty搭建维护和ngx_lua功能开发,主要为waf功能和打点功能实现
- 为技术部门和大数据部门提供系统、网络、第三方应用、云服务、容器、nginx等方面的技术支持
高级技术支持工程师
- 负责运维平台等web平台的运维和agent模块(golang)的开发
- 负责大数据系统的运维
- 为其他部门提供系统、网络、应用等方面的技术支持
- 运维相关新技术研究与实践
运维工程师
通过阿里云平台(ECS、RDS、SLB)进行视频监控、web后台服务系统的运维工作
Projects
运维平台-Cloudms自动化系统
- 项目背景:有多个云服务平台以及多个管理平台,人工创建资源效率低,不规范,资源归属乱,成本统计困难,需要整合,提高效率,降低成本。
- 项目描述:Cloudms基于golang编写,利用云平台的API接口以及管理平台的接口,串连整个基础资源的生命周期管理,并实现简单的成本控制。
- 项目职责:1、主导运维基础元规范定制,2、独自完成cloudms系统的开发,3、与多个管理平台对接、沟通,4、利用数据和自动化手段推进不同部门的成本优化。
- 项目效果:上线至今已完成上万个以上的基础资源的创建和下架,节省95%左右的时间成本,并输出资源成本展示平台、低资源使用消息推送。
运维平台-Prometheus监控系统
- 项目背景:有多个云服务平台,监控数据查看麻烦,告警配置麻烦,无法自定义告警指标。
- 项目描述:基于开源项目Prometheus做二次开发,实现整个监控系统的统一。
- 项目职责:1、独自完成Prometheus集群搭建和监控展示配置,2、基础告警统一配置,3、独自完成注册器(用于客户端自动注册)、webhook(用于接入公司的统一微信告警系统)、阈值平台(用于用户自定义告警阈值)的开发,4、主导云服务监控迁移至Prometheus监控系统工作。
- 项目效果:接入3000个以上资源监控,完成监控大盘配置,通过告警收敛和用户自定义阈值,减少70%左右的误告和无效报警。
容器平台-大禹项目
- 项目背景:机器资源使用浪费、项目多、各种环境多,用户不熟悉k8s,需要节省成本,并减少用户的使用难度和提升开发测试效率。
- 项目描述:基于K8s之上构建PaaS平台供用户使用,且需要一定程度上适应用户原本的使用习惯
- 项目职责:1、参与K8s系统的搭建和维护,2、参与底层资源规范制定,3、独自完成Ingress和监控功能的搭建和接口开发
- 项目效果:协助完成非线上环境的业务迁移,完成部分线上业务的迁移,通过k8s的计算资源控制和定时任务都能功能,节省了70%以上的服务器成本,利用ingress实现了用户路由自定义配置,减少了80%的时间成本。