[멘토특강] SRE102: 백엔드 모니터링을 위한 TSDB와 ChatOPS

네이버의 검색 시스템은 하루에도 수억 건씩 사용자의 검색 요청이 들어옵니다. 검색 시스템의 신뢰성 유지를 위한 모니터링 시스템 개선과 장애 복구시스템 도입에 대한 구체적인 기술과 노력에 대해 공유하고자 합니다.
[특강 목차]
1.
네이버 검색과 SRE
스케일과 복잡도
대규모 & 다양한 서비스, 다양한 내/외부패키지
검색人의 장애
365/24, 언제 발생할지 모르는 장애로 인한 담당자들의 고통
2.
일상 속의 SRE를 위한 모니터링 시스템
기존 시스템의 문제점
시계열 데이터 처리 방식 개선
시계열 DB 도입
데이터 저장 구조 소개
개선 사례
데이터를 더욱 자세히: 서비스 이름이 변경된 경우
데이터를 더욱 자세히: 운영 버전이 달라진 경우
사회적 이슈와 네이버 검색: COVID-19와 네이버 검색
3.
손 안의 SRE를 위한 장애 복구 시스템
Actionable Outage Control System
심플한 구조
Trigger-Action
적용 사례
서비스 Scale-out
자동비상대응시스템
서버 Stop
서비스 롤백