이 후기는 기술적 세부사항보다는 회사에 적용 가능한 실용적 인사이트를 중심으로 작성되었습니다.


1. AI 활용의 현주소

AI 발전 5단계

  1. Chatbots - 단순 대화

  2. Reasoners - 추론 능력

  3. Agents - 자율 행동 (현재 단계)

  4. Innovators - 문제 발견 및 혁신

  5. Human - 인간 수준

Agents 단계의 특징

  • 스스로 환경 인식 및 의사결정

  • 사용자의 루틴 업무 대신 처리

  • 현재는 검증 단계로 일부 제약 존재:

    • 환경 인식에 가이드 필요 (지식/코드베이스 지정)

    • 최종 검증은 여전히 사람이 필요

실제 활용 사례

우아한형제들의 AI 활용 목표

구성원의 반복적이고 개선 가능한 업무를 AI 동료가 처리하여 생산성 향상

회사 적용 포인트: 반복 업무를 줄일 수 있는 새로운 AI 동료 도입 검토


2. 장애 대응 문화와 시스템

기본 철학

  • 아무것도 안 하면 장애는 발생하지 않지만, 서비스는 계속되어야 한다

  • 장애를 필연적인 것으로 인정

  • 원인 탓보다는 신속한 해결에 집중

기존 문제점 (회사와 유사)

  • 모니터링은 있으나 부서 내 공유에 그침

  • 외부 팀은 사후 결과만 전달받거나 장애 지속 시에야 인지

  • 그레이 영역(책임 소재 불분명) 문제 존재

해결 방안

  1. 전사적 공유 자동화
  • 장애 탐지 시 자동 전파 및 전용 채널 생성

  • 슬랙 챗봇으로 공유, 심각도별 옵스지니 호출

  • 채널에서 실시간 진행상황 공유 → 중복 작업 방지

  1. 그레이 영역 해결 (문화적 접근)
  • SRE 팀이 먼저 나서서 문제 해결

  • 동료들의 인정 → “우리도 도와주자”는 분위기 형성

  • 현재는 자발적 협력 문화로 정착

우리 회사 적용 포인트:

  • 장애 탐지 시 자동 전파 프로세스 필요

  • 장애 대응자에 대한 인정과 존중 문화 필요

  • 원인 분석과 재발 방지는 하되, 탓하거나 부담 주지 않기


3. 서비스 이상 탐지 시스템

4가지 핵심 요구사항

  1. 시의성 - 제때 탐지

  2. 설명 가능성 - 경보 발생 이유 설명 가능

  3. 재현성 - 경보 상황 재현 가능

  4. 협업성 - 모든 팀이 동일 프로토콜로 대응

구현 방식

시의성 + 설명 가능성

통계 모델 채택 (AI/LLM 대신)

  • 지난 N주 데이터의 중앙값 활용

  • 동일 요일/시간대 트래픽 패턴으로 임계값 설정

AI/LLM을 사용하지 않은 이유:

  • 동일 입력에도 다른 결과 가능

  • 탐지 이유 명확히 설명 불가

  • 성능 이슈 및 예외 처리 어려움

재현성

  • VictoriaMetrics 사용

  • Backfill 기능으로 경보 상황 재현

협업성

  • 전파 프로세스 자동화

  • 장애 인지~공지 시간 단축 → 신속 대응

  • 핵심 목적: 경험/숙련도에 따른 대응 편차를 상향 평준화


핵심 시사점

  1. AI는 도구이며, 반복 업무 자동화에 집중

  2. 장애는 필연이므로 빠른 대응 체계와 협력 문화가 중요

  3. 자동화는 속도뿐 아니라 대응 품질의 균일화를 위한 것

  4. 기술보다 문화와 프로세스가 더 중요할 수 있음