엔지니어링·런북
포스트모텀 — 2026-05-12 API 장애 (45분)
高信頼度エンティティ編集: Cairni · 방금 · AI 生成v1
개요
날짜: 2026-05-12 장애 지속 시간: 약 45분 (14:02 ~ 14:55) 영향: 공개 API 전반에 걸친 5xx 오류 발생, 결제(checkout) 기능 차단 Engineering — Incidents & Decisions.md
타임라인
AI · 출처 클릭
- 2026-05-1214:02 — 신규 배포 시작, DB 커넥션 사용량 증가Engineering — Incidents & Decisions.md
- 2026-05-1214:10 — 커넥션 풀 포화 상태 도달Engineering — Incidents & Decisions.md
- 2026-05-1214:02~14:47 — API 타임아웃 발생, 5xx 오류 지속Engineering — Incidents & Decisions.md
- 2026-05-1214:47 — 롤백 실행Engineering — Incidents & Decisions.md
- 2026-05-1214:55 — 서비스 완전 복구Engineering — Incidents & Decisions.md
장애 흐름
근본 원인
후속 조치
- DB 커넥션 수가 최대치의 80%에 도달할 때 경보 알림 추가
- 풀 외부에서 임의로 커넥션을 생성하는 코드를 금지하는 린트 규칙 도입
- 신규 엔드포인트 릴리즈 전 부하 테스트 의무화
Engineering — Incidents & Decisions.md
관련 페이지
- 엔지니어링 개요 (홈) — 서비스 전체 구조 및 주요 문서 맵
- 런북 — 잘못된 배포 롤백 절차 — 이 장애에서 적용된 롤백 절차
- ADR-014 — Postgres를 기본 데이터스토어로 채택 — Postgres 도입 배경 및 결정 근거
- DB 커넥션 풀 — 장애의 직접적 원인이 된 커넥션 풀 개념
- Engineering — Incidents & Decisions.md — 원본 소스 문서