Operational Excellence Pillar

이번 장에서는 Well-Architected Framework의 운영 우수성(Operational Excellence Pillar)에 대해서 알아본다.

운영 우수성 원칙

비즈니스 가치를 실현하고 지원 프로세스 및 절차를 지속적으로 개선하기 위해 시스템을 실행 및 모니터링하는 능력이다.
운영 우수성 원칙에서의 중점 영역은 아래와 같다.
- 조직: 고객은 조직의 우선 순위, 조직 구조 및 팀 구성원이 비즈니스 성과를 지원할 수 있도록 조직이 팀 구성원을 지원하는 방법을 이해해야 한다.
- 준비: 고객은 운영 아키텍처를 설계해야 한다.
  아키텍처를 실제로 구현하거나 대폭적으로 변경해야 할 시점에 정보에 근거한 의사 결정을 하려면 워크로드와 팀의 준비 상태를 살펴야 한다.
- 운영: 고객은 워크로드 운영 방법을 알고 워크로드 및 운영 활동의 상태를 이해해야 한다.
  이를 통해 조직 및 비즈니스 성과를 달성하는 데 어려움이 있을 때를 구분하여 적절하게 대응할 수 있다.
- 진화: 고객은 워크로드 및 운영 활동의 지속적인 개선을 위한 프로세스를 보유해야 한다.
  여기에는 피드백 루프를 구현하여 경험을 통해 학습한 후 개선하고 학습 내용을 공유하여 조직 전체에 도움을 제공할 수 있는 프로세스도 포함된다.

기존 환경에서의 운영 우수성 과제

수동 변경: 많은 사용자들은 종종 오래된 문서를 따르면서 잦은 변경을 피할 수 없었다.
배치성(대규모) 변경: 시스템 변경은 어려운 작업이며 위험이 따르기 때문에 잦은 변경을 기피하였다.
이로 인해 대규모 릴리즈를 통해 변경 사항을 일괄로 처리하는 경우가 많아졌다.
게임 데이의 부재: 장애 또는 이벤트를 시뮬레이션하는 일도 거의 없었다.
시뮬레이션 시스템이 없을 뿐만 아니라 시뮬레이션할 수 있는 사람도 없기 때문이다.
배울 시간이 없음: 변화의 속도가 너무 빠르다 보니 고객들은 바뀌는 상황에 따라 반응만 보일뿐 실제로 학습할 수 있는 시간이 없었다.
오래된 도큐먼트: 변화가 이루어지는 방식으로 인해 최신 정보를 유지하는 것도 어렵다.

클라우드 환경에서 운영 우수성

클라우드에서는 위에서 살펴본 기존 환경의 제약 조건이 모두 사라진다.
코드로 운영(IaaC): 고객은 애플리케이션 코드에 사용한 것과 동일한 엔지니어링 분야를 전체 환경 및 운영 활동에 적용할 수 있다.
취소 가능한 소규모 변경을 자주 수행, 운영 절차를 자주 개선: 자동화를 통해 변경에 따른 노력을 줄이고 점차 빠르게 늘어가는 가역적 변경에 대한 표준을 도입하여 위험을 줄인다.
장애를 예측하고 모든 운영 장애로부터 학습: 고객은 게임 데이를 통해 장애를 시뮬레이션하여 복구 프로세스를 테스트함으로써 실제로 장애가 발생했을 때 대응할 수 있는 능력을 키운다.
이러한 시뮬레이션을 비롯한 모든 운영 이벤트를 통해 학습하여 대응 능력을 개선할 수 있다.

조직

고객 조직에게 워크로드의 비즈니스 가치와 워크로드를 지원하는 팀의 역할에 대한 공감대가 필요하다.
팀은 비즈니스 목표를 서로 공유하여 비즈니스 성공 여부를 결정할 수 있는 운영 우선 순위를 설정해야 한다.
다른 팀의 성공을 위해 자신이 해야 할 역할을, 그리고 자신의 성공을 위해 다른 팀이 해야 할 역할을 정확하게 알고 있어야 한다.
역할에 대한 책임과 소명에 대해 잘 알고 있으면 노력을 한 곳으로 집중하여 노력의 이점을 극대화하는 데 효과적이다.
고객은 팀원들이 실천을 통해 비즈니스 성과를 뒷받침하는 효과를 높일 수 있도록 팀원들을 지원해야 한다.

조직: 비즈니스 요구

조직의 중점 영역에서 운영 우수성 모범 사례를 나타내는 예로 비즈니스 요구에 대한 이해가 있다.
비즈니스는 고객의 요구를 해결하기 위해 존재한다.
개발 및 운영은 비즈니스의 요구를 해결하기 위해 존재한다.
우선 순위는 비즈니스 및 고객 요구를 통해 구체화된다.
규정 준수 요구 사항이나 업계 모범 사례와 같은 외부 요인도 우선 순위에 영항을 미칠 수 있따.
우선 순위를 설정할 경우 이점과 위험을 모두 고려하여 정보에 근거한 의사 결정을 해야 한다.
시장 진입 속도가 우선 순위라면 안정성이 단기적으로 상쇄될 수 있다.
성능이 우선 순위라면 비용 최적화가 상쇄될 수 있다.
우선 순위는 요구가 바뀔 때마다 업데이트할 필요가 있다.

준비

원격 측정 설계에서는 워크로드를 통해 고객이 모든 구성 요소의 내부 상태를 파악하는 데 필요한 정보(예: 지표, 로그, 이벤트, 트레이스)를 제공하는 데 중점을 둔다.
워크플로우 개선에서는 문제가 커지는 것을 막거나 프로덕션 단계로 번지기 전에 문제를 찾아 해결하는 등 프로덕션 단계로 진행하면서 유익한 변화가 더욱 빠르게 일어나도록 지원하는 실무를 강조한다.
배포 위험 완화에서는 고객이 변화를 통해 원하는 성과를 달성하지 못한 경우 이를 빠르게 파악하여 문제를 신속히 복구할 수 있도록 지원하는 실무에 중점을 둔다.
운영 준비 상태 파악에서는 워크로드가 프로덕션 단계를 시작할 준비가 얼마나 되어 있는지 그리고 고객 팀이 워크로드를 지원할 준비가 얼마나 준비되어 있는지 파악하는 데 중점을 둔다.
고객은 프로덕션 단계에서 워크로드를 운영하는 데 따른 위험을 파악하여 운영 여부에 대해 정보에 입각한 의사 결정을 할 수 있다.

준비: 여러 환경 사용

준비의 중점 영역에서 운영 우수성 모범 사례를 나타내는 예로 여러 환경 사용이 있다.
고객은 개발자에게 실험을 위한 개인 샌드박스와 개발을 위한 개인 개발자 환경을 제공해야 한다.
이렇게 하면 서로 영향을 미치지 않으면서 동시에 작업이 가능하다.
고객은 코드형 인프라와 구성 관리 시스템을 사용하여 프로덕션 단계와 일관성을 유지하지만 목적에 따라 확장도 가능한 환경을 배포해야 한다.
프로덕션 단계에 가까워질수록 환경에 대한 보안 통제를 강화해야 한다.
이렇게 되면 행동과 테스트 결과를 통해 프로덕션 단계에서 예상되는 일을 알아내는 데 효과적이다.
환경을 사용하지 않을 때는 고객이 미사용 리소스와 관련된 비용이 발생하지 않도록 환경을 비활성화해야 한다.

운영

운영은 워크로드 및 운영 활동의 상태를 이해하고 유용한 비즈니스 및 기술 통찰력을 발굴하며 운영 이벤트에 대응하는 데 중점을 둔다.
고객은 워크로드 및 운영 측정치를 정의, 캡처, 분석하여 워크로드 상태, 워크로드 지원 시 성공적인 운영 활동 및 비즈니스 성과 달성에 대한 가시성을 제공해야 한다.
“워크로드 측정치의 기술 통찰력”을 나타내는 예로 변화 “이후 워크로드 구성 요소의 상태에 미치는 영향”이 있다.
“운영 측정치의 비즈니스 통찰력”을 나타내는 예로 “고객 대응 시스템의 기능을 성공적으로 업데이트하는 횟수”가 있다.
고객은 예상되는 측정 값의 기준을 비롯해 개선, 조사 및 개입을 위한 임계값을 설정해야 한다.
이벤트가 발생하여 임계값을 위반하더라도 고객이 상황에 맞게 대응할 수 있다.
판매 프로모션, 배포, 게임 데이와 같은 이벤트는 계획에 따라 일어나지만 사용이나 구성 요소 장애의 급증과 같은 이벤트는 갑작스럽게 일어날 수 있다.
고객은 런북과 플레이북을 사용하여 이벤트에 대해 일관적으로 대응할 수 있도록 해야 한다.

운영: 이벤트

운영에서 운영 우수성 모범 사례를 나타내는 예로 이벤트, 인시던트 및 문제를 관리하는 프로세스 구성이 있다.
고객이 정의해야 하는 대응 프로세스의 대상은 아래와 같다.
- 주시하고 있는 이벤트
- 인시던트: 개입이 필요한 이벤트
- 문제: 개입이 필요하고 다시 발생할 수 있거나 현재 해결할 수 없는 이벤트
알림이 발생하는 모든 이벤트에 대해 런북이나 플레이북의 형태로 잘 정의된 대응을 마련해야 한다.
정의된 알림은 대응 프로세스를 정의하고 에스컬레이션을 적용하는 역할 또는 팀에서 소유해야 한다.
정의된 대응은 에스컬레이션을 트리거하는 요소와 에스컬레이션 프로세스를 포함하고 각 작업의 특정 소유자를 식별해야 한다.
에스컬레이션에는 제3자 공급업체 또는 AWS Support 같은 외부 당사자가 포함될 수 있다.

참고

에스컬레이션: 긴급 사고가 발생하여 상사의 지시나 지원이 필요할 때 이루어진다. 예를 들어, 아래와 같은 경우에 에스컬레이션이 이루어진다.
- 클레임으로 책임자의 대응을 요구받은 경우
- 가격 흥정 등 권한이 있는 책임자의 대응이 필요한 경우
- 전문가 또는 권한이 있는 관리자의 대응이 필요한 문제가 발생한 경우
인시던트: 인스턴트는 “IT 장애”로 재해석할 수 있으며, 인시던트를 관리한다는 것은 IT 장애를 관리한다는 것을 의미한다.

진화

고객은 고객에게 영향을 미치는 이벤트, 피드백 루프, 학습 교훈, 측정치 분석, 교차 검토 등 다양한 분석을 통해 찾아낸 개선 가능성을 평가해야 한다.
고객은 가능성에 대한 검증 과정을 통해 우선 순위를 결정하고 필요에 따라 변경한 후 결과를 평가해야 한다.
변경으로도 원하는 결과를 얻지 못할 경우에는 다른 방법을 고려해야 한다.
고객이 개선 노력을 통한 이점을 극대화하려면 학습 교훈과 결과물을 팀원들과 공유해야 한다.

피드백 루프

진화 영역에서 운영 우수성 모범 사례를 나타내는 예로 피드백 루프 통합이 있다.
- 활동에는 개선이 필요한 부분을 파악하기 위한 피드백 루프가 포함되어야 한다.
- 피드백은 우선 순위를 정하여 개선하는 데 사용해야 한다.
- 피드백은 운영 활동을 실행하는 과정에서, 사용자 경험에서, 그리고 비즈니스 및 개발팀에게서 나와야 한다.
- 예시로 피드백 메커니즘은 비즈니스팀, 개발팀, 운영팀과 함께 운영 및 워크로드 측정치를 정기적으로 검토하는 것이 있다.
  이러한 회의를 통해 비즈니스 요구의 변화를 식별하고 통찰력을 검증하며 개선 기회 및 방법을 파악한다.
- 고객은 시간이 지나면서 피드백을 평가하여 개선 성공 여부를 인지할 수 있다.

핵심 사항

운영 우수성 원칙의 핵심 사항은 아래와 같다.
- 비즈니스 우선 순위를 파악한다.
- 운영을 고려한 설계를 통해 워크로드의 상태 및 성공적인 운영 활동에 대한 통찰력을 키울 수 있다.
- 워크로드와 팀을 포함하여 운영 준비 상태를 평가한다.
- 워크로드의 상태와 운영 활동의 상태를 파악한다.
  이를 통해 비즈니스 및 운영 통찰력을 얻을 수 있다.
- 런북과 플레이북을 사용하여 이벤트를 준비하고 이에 대응한다.
- 경험을 통해 학습하고 개선한다.
  이러한 경험의 이점을 극대화하려면 조직에서 학습한 내용을 공유한다.

참고

런북(Runbook): 문제를 해결하기 위해 필요한 조치들을 정의한 것이다.
플레이북(Playbook): 장애에 영향을 미친 원인을 조사하고 식별하기 위해 수행되는 프로세스를 문서화 한 것이다.

참고 자료

https://explore.skillbuilder.aws/learn/course/1793/play/48096/the-operational-excellence-pillar-korean

저작자표시

'Infrastructure > Cloud Computing' 카테고리의 다른 글

[Well-Architected] Reliability Pillar (0)	2022.11.15
[Well-Architected] Security Pillar (0)	2022.11.15
[Well-Architected] Basics (0)	2022.11.15
[Cloud Computing] 다중 플랫폼 사용에 대한 고찰 (0)	2022.04.04
[AWS] Reserved Instance (0)	2022.02.28

RoyOps

[Well-Architected] Operational Excellence Pillar

Operational Excellence Pillar

운영 우수성 원칙

기존 환경에서의 운영 우수성 과제

클라우드 환경에서 운영 우수성

조직

조직: 비즈니스 요구

준비

준비: 여러 환경 사용

운영

운영: 이벤트

진화

피드백 루프

핵심 사항

참고 자료

'Infrastructure > Cloud Computing' 카테고리의 다른 글

티스토리툴바

[Well-Architected] Operational Excellence Pillar

Operational Excellence Pillar

운영 우수성 원칙

기존 환경에서의 운영 우수성 과제

클라우드 환경에서 운영 우수성

조직

조직: 비즈니스 요구

준비

준비: 여러 환경 사용

운영

운영: 이벤트

진화

피드백 루프

핵심 사항

참고 자료

'Infrastructure > Cloud Computing' 카테고리의 다른 글

'Infrastructure/Cloud Computing' Related Articles

티스토리툴바