[멘토특강] SRE101: 대규모 시스템은 어떻게 장애와 맞서 싸울까

강의자료는 회사 외부로 공개된 자료를 베이스로 합니다. Fail Fast, Learn Faster SRE (실패에서 배워나가는 SRE)
[이런 특강이에요]
SRE 개론 성격의 매우 쉬운 난이도를 가지는 특강입니다.
SRE가 무엇인지, 시스템은 어떻게 이루어져 있는지 그리고 방법론과 문화를 소개합니다.
회사 외부에 공개된 슬라이드, 아티클 자료와 덧붙여 흥미로운 개인 경험 (그리고 썰...)을 덧붙이는 형태로 진행될 예정입니다.
물론 직업 윤리에 따라 민감한 대외비는... 말할 수 없음을 이해해 주세요
시간이 허락하면 SRE팀에서 시스템과 함께 개인으로서 성장하기까지 경험기도 덧붙입니다.
[이런 분이 특강을 들으면 좋겠어요]
국내 최대 규모의 대용량 시스템 및 안정적인 시스템 운영에 관심이 있는 분
백엔드 엔지니어의 적 서버 장애와 맞써 싸우는 방법에 관심이 많은 분
백엔드 엔지니어로 커리어를 지향하시는 분
SRE가 어떤 일들을 하고 있는지 궁금하신 분
1. 국내 최대 규모의 트래픽과 데이터를 소화하는 검색 시스템은 과연 어떻게 안정성을 유지할까요?
2. 서버 수만대, 서비스가 수백개 규모에선 어떤 방법으로 모니터링을 하는 것이 효과적일까요?
3. 만약 여러분의 서비스에 접속 중단과 같은 대형 장애가 발생한다면, 여러분들은 어떻게 대처해야 할까요?
4. 여러분의 진행할 작은 규모의 프로젝트는 어떻게 유지하는 게 경제성과 리소스 측면에서 효율적일까요?
Google은 지구상에서 아무도 다뤄본 적이 없을 정도로 스케일이 큰 인터넷 서비스를 운영합니다. 이런 거대한 스케일의 큰 인터넷 서비스를 개발하고 운영하기 위한 방법론을 모으고 모아서 잘 정리한 것이 바로 Site Reliability Engineering (이하 SRE) 입니다.
그런데, 과연 Google과 같이 글로벌 스케일을 가지는 서비스만 SRE가 필요할까요? 2022년 10월 15일 판교 데이터센터 화제로 K사 서비스 전반에 장애가 발생했습니다. 전 국민의 메신저가 동작하지 않는 슬프고 불편한 사건이 있었죠. 같은 사건 재발을 방지하기 위해 방통위 주관으로 방송통신발전 기본법이 일부 개정되었습니다. (일명 플랫폼 먹통 방지법)
"플랫폼 장애 N시간 이상 지속시 고지가 의무화" 되며 국내 N사, K사 처럼 IT 대기업에도 재난관리 기준이 수립되어야 했습니다.
이렇게 중대한 장애를 사전에 방지할 방법은 무엇일까요? 이번 특강에서는 국내 검색 포털이란 환경 N사에서 SRE를 도입하게 된 계기를 소개하고, 실제로 어떻게 활용하고 있는지, 그리고 도입하면 어떤 성과가 있었는지 소개합니다.
마지막으로 제가 실패를 통해 배운것과, 여러분의 서비스에 접목하면 좋은 수준의 SRE를 소개해 드리도록 하겠습니다.
[특강 목차]
1.
왜 SRE를 도입해야 하는가?
도대체 SRE란 무엇인가
SRE의 필요성
2.
우리들의 SRE
멋진 SRE가 아닌 효과적인 SRE
가용량 지표
비상 대응 체계
Post-Mortem 문화
3.
Metric + Meta Data = Insight
SRE를 위한 Metric과 Meta Data
[서버] 단위가 아닌 [서비스] 단위 Alerting
4.
Fail Fast, Learn Faster
가용량, 트래픽기반 경보 체계
경보 피로를 줄이는 방법 (Pending, 평일 공휴일)
대한민국에서 발생하는 온갖 종류의 이벤트들을 분석 및 활용
내부 시스템변화, 장애의 사전 징후를 감지
장애 대응 커뮤니케이션 시간 단축
5.
Lessons Learned
실패를 통해 배우면서 느꼈던 교훈들
여러분들이 진행할 프로젝트의 규모에 맞는 SRE 도구들과 방법론
2018년 부터 2023년까지 팀에서 SRE 홍보를 다수 진행했습니다.  (NAVER DEVIEW, D2 Hello World 기고 등.)
이번 SRE101 특강 이후 SRE의 여러 구성 요소 중 하나씩 소개해 보도록 하겠습니다. Monitoring, Logging, Metric, Alert, On-Call, Incident Response, Culture 등 다양한 특강을 개설해 보겠습니다.
첫 개론 성격의 특강을 들으시면, 이후 특강이 더 쉽게 이해되며 유익해질 것 같아요! 첫 특강 많은 참석 부탁드립니다.
혹시라도, 특강 전 궁금한 점이 있으시다면 아래 스페이스에서 질문 남겨주세요. (자유 멘토링 요청이나, 앞으로의 특강 질문도 환영해요!)