네이버의 검색 시스템은 하루에도 수억 건씩 사용자의 검색 요청이 들어옵니다.
검색 시스템의 신뢰성 유지를 위한 모니터링 시스템 개선과
장애 복구시스템 도입에 대한 구체적인 기술과 노력에 대해 공유하고자 합니다.
[특강 목차]
1.
네이버 검색과 SRE
•
스케일과 복잡도
•
대규모 & 다양한 서비스, 다양한 내/외부패키지
•
검색人의 장애
•
365/24, 언제 발생할지 모르는 장애로 인한 담당자들의 고통
2.
일상 속의 SRE를 위한 모니터링 시스템
•
기존 시스템의 문제점
•
시계열 데이터 처리 방식 개선
•
시계열 DB 도입
•
데이터 저장 구조 소개
•
개선 사례
◦
데이터를 더욱 자세히: 서비스 이름이 변경된 경우
◦
데이터를 더욱 자세히: 운영 버전이 달라진 경우
◦
사회적 이슈와 네이버 검색: COVID-19와 네이버 검색
3.
손 안의 SRE를 위한 장애 복구 시스템
•
Actionable Outage Control System
◦
심플한 구조
◦
Trigger-Action
•
적용 사례
◦
서비스 Scale-out
◦
자동비상대응시스템
◦
서버 Stop
◦
서비스 롤백