이 후기는 기술적 세부사항보다는 회사에 적용 가능한 실용적 인사이트를 중심으로 작성되었습니다.
1. AI 활용의 현주소
AI 발전 5단계
-
Chatbots - 단순 대화
-
Reasoners - 추론 능력
-
Agents - 자율 행동 (현재 단계)
-
Innovators - 문제 발견 및 혁신
-
Human - 인간 수준
Agents 단계의 특징
-
스스로 환경 인식 및 의사결정
-
사용자의 루틴 업무 대신 처리
-
현재는 검증 단계로 일부 제약 존재:
-
환경 인식에 가이드 필요 (지식/코드베이스 지정)
-
최종 검증은 여전히 사람이 필요
-
실제 활용 사례
우아한형제들의 AI 활용 목표
구성원의 반복적이고 개선 가능한 업무를 AI 동료가 처리하여 생산성 향상
회사 적용 포인트: 반복 업무를 줄일 수 있는 새로운 AI 동료 도입 검토
2. 장애 대응 문화와 시스템
기본 철학
-
“아무것도 안 하면 장애는 발생하지 않지만, 서비스는 계속되어야 한다”
-
장애를 필연적인 것으로 인정
-
원인 탓보다는 신속한 해결에 집중
기존 문제점 (회사와 유사)
-
모니터링은 있으나 부서 내 공유에 그침
-
외부 팀은 사후 결과만 전달받거나 장애 지속 시에야 인지
-
그레이 영역(책임 소재 불분명) 문제 존재
해결 방안
- 전사적 공유 자동화
-
장애 탐지 시 자동 전파 및 전용 채널 생성
-
슬랙 챗봇으로 공유, 심각도별 옵스지니 호출
-
채널에서 실시간 진행상황 공유 → 중복 작업 방지
- 그레이 영역 해결 (문화적 접근)
-
SRE 팀이 먼저 나서서 문제 해결
-
동료들의 인정 → “우리도 도와주자”는 분위기 형성
-
현재는 자발적 협력 문화로 정착
우리 회사 적용 포인트:
-
장애 탐지 시 자동 전파 프로세스 필요
-
장애 대응자에 대한 인정과 존중 문화 필요
-
원인 분석과 재발 방지는 하되, 탓하거나 부담 주지 않기
3. 서비스 이상 탐지 시스템
4가지 핵심 요구사항
-
시의성 - 제때 탐지
-
설명 가능성 - 경보 발생 이유 설명 가능
-
재현성 - 경보 상황 재현 가능
-
협업성 - 모든 팀이 동일 프로토콜로 대응
구현 방식
시의성 + 설명 가능성
통계 모델 채택 (AI/LLM 대신)
-
지난 N주 데이터의 중앙값 활용
-
동일 요일/시간대 트래픽 패턴으로 임계값 설정
AI/LLM을 사용하지 않은 이유:
-
동일 입력에도 다른 결과 가능
-
탐지 이유 명확히 설명 불가
-
성능 이슈 및 예외 처리 어려움
재현성
-
VictoriaMetrics 사용
-
Backfill 기능으로 경보 상황 재현
협업성
-
전파 프로세스 자동화
-
장애 인지~공지 시간 단축 → 신속 대응
-
핵심 목적: 경험/숙련도에 따른 대응 편차를 상향 평준화
핵심 시사점
-
AI는 도구이며, 반복 업무 자동화에 집중
-
장애는 필연이므로 빠른 대응 체계와 협력 문화가 중요
-
자동화는 속도뿐 아니라 대응 품질의 균일화를 위한 것
-
기술보다 문화와 프로세스가 더 중요할 수 있음
댓글 (0)