엔지니어링·런북

포스트모텀 — 2026-05-12 API 장애 (45분)

高信頼度エンティティ編集: Cairni · 방금 · AI 生成v1

개요

날짜: 2026-05-12 장애 지속 시간: 약 45분 (14:02 ~ 14:55) 영향: 공개 API 전반에 걸친 5xx 오류 발생, 결제(checkout) 기능 차단 Engineering — Incidents & Decisions.md


타임라인

AI · 출처 클릭
  1. 2026-05-12
    14:02 — 신규 배포 시작, DB 커넥션 사용량 증가
    Engineering — Incidents & Decisions.md
  2. 2026-05-12
    14:10 — 커넥션 풀 포화 상태 도달
    Engineering — Incidents & Decisions.md
  3. 2026-05-12
    14:02~14:47 — API 타임아웃 발생, 5xx 오류 지속
    Engineering — Incidents & Decisions.md
  4. 2026-05-12
    14:47 — 롤백 실행
    Engineering — Incidents & Decisions.md
  5. 2026-05-12
    14:55 — 서비스 완전 복구
    Engineering — Incidents & Decisions.md

장애 흐름


근본 원인

신규 엔드포인트가 DB 커넥션 풀을 사용하지 않고 요청마다 독립적인 DB 커넥션을 직접 생성하였습니다. 부하가 걸리는 상황에서 Postgres 커넥션 한도가 소진되어 API 전체가 타임아웃 상태에 빠졌습니다. Engineering — Incidents & Decisions.md


후속 조치

  • DB 커넥션 수가 최대치의 80%에 도달할 때 경보 알림 추가
  • 풀 외부에서 임의로 커넥션을 생성하는 코드를 금지하는 린트 규칙 도입
  • 신규 엔드포인트 릴리즈 전 부하 테스트 의무화

Engineering — Incidents & Decisions.md


관련 페이지