稳定性、效率、成本乃SRE三板斧,所有工作都围绕此三方面展开,企业要想构建完善的SRE体系,需要统一规划好三者的能力建设,为此,dbaplus社群携手bilibili四位运维专家,围绕“甩掉技术债包袱,B站SRE体系建设与转型实践”这一主题开展线上直播分享,针对稳定性建设、容量运营治理、SLO运营体系与报警、风险预警等内容进行深入探讨,为各行各业的运维转型与SRE体系建设提供更多新思路。
- 观看方式:线上直播间
- 直播日期:2023年3月4日(周六)
- 直播时间:14:00-17:00
- 直播地址:http://z-mz.cn/64AWT
活动议程
分享嘉宾及议题
吉翔
bilibili
资深SRE工程师
《服务稳定性建设:高可用架构与多活治理》
议题要点及收获:
- B站高可用架构,包括接入层、数据层、缓存层、消息层等组件的高可用能力和优化演进;
- 高可用架构下业务多活改造接入的方法;
- 多活统一管控和治理的思路。
嘉宾介绍:负责在线业务SRE相关工作,深度参与业务多活建设项目。当前专注于核心业务多活建设推进、多活管控治理等工作。
张鹤
bilibili
资深SRE工程师
《B站应用降本增效与容量运营治理》
议题要点及收获:
- 容量弹性伸缩在业务稳定性提升上如何落地;
- 降本增效的大背景下,如何平衡稳定性和降本的关系;
- 容量运营落地时遇到哪些难点,如何赋能业务。
嘉宾介绍:2020年加入B站,先后负责社区/直播/OGV/推广搜相关的SRE工作,深度参与多活、活动保障、混沌工程、容量治理相关建设,主导容量管理平台、混沌平台的架构设计和落地,负责B站S赛、跨年晚会、拜年祭等相关活动的基础架构保障工作,目前主要负责推广搜业务的稳定性建设。
武安闯
bilibili
基础架构部SRE负责人
《SLO运营体系与报警:如何从工程理论探索到最佳实践》
议题要点及收获:
- 可用性指标的观测对象、观测方案和落地实践;
- Google SRE中最核心的SLO工程方法论及SLO实施经验;
- 以SLO工程为核心探讨服务的可用性度量、质量运营与报警治理。
嘉宾介绍:先后负责中间件运维、在线业务保障和SRE稳定性工程,《2021.07.13 我们是这样崩的》文章作者。从0到1带领运维向SRE转型,建设B站稳定性体系,主导建设SRE转型、SLO工程、容量管理体系、高可用架构、多活容灾等专项,当前专注于SRE稳定性体系规划建设和落地实践。
谷林涛
bilibili
资深SRE开发工程师
《B站风险预警的架构设计及落地实践》
议题要点及收获:
- 标准预警事件的SOP处理流程、如何抽象整个风险事件的闭环流程以及风险预警的整体架构图和具体落地方案;
- 稳定性建设体系构建——事前篇;
- 预警事件处理的技术挑战、能力建设和产品整合。
嘉宾介绍:B站事件运营中心研发负责人,负责建设bilibili内部稳定性平台产品,提升线上问题的应急协同效能。同时负责工单、封网管控、拓扑定位产品,总体保障业务系统的安全生产。
复制链接进入直播间↓
http://z-mz.cn/64AWT
别忘了点击开播提醒哟
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。