본문 바로가기

Industry-Safety/[산업안전지도사] 공통개념

[산업안전일반] 분포의 종류

📌 기기의 고장 분석을 위한 분포 종류

목적: 기기의 고장 확률 분석을 위한 분포의 종류들 대해서 알아본다.


📊 지수분포 (Exponential Distribution)

  • 지수분포(Exponential Distribution)는 통계학에서 어떤 사건이 발생할 때까지 걸리는 시간을 모델링하는 데 가장 널리 쓰이는 연속 확률 분포이다.
  • 예시처럼 $x=0$일 때 확률밀도가 가장 높고 시간이 지날수록 급격히 0으로 수렴하는 형태를 띠는 것이 특징이다.

1. 핵심 개념: "얼마나 기다려야 하는가?"

  • 지수분포는 사건이 서로 독립적이고, 일정 시간 동안 발생하는 평균 횟수가 일정할 때(포아송 과정), 다음 사건이 일어날 때까지의 대기 시간을 나타낸다.
  • 정의: 단위 시간당 평균 $\lambda$(람다)회 발생하는 사건이, 다음번 발생할 때까지 걸리는 시간에 대한 분포
  • 직관적 이해: 버스가 언제 올지 모르는 상황에서 "다음 버스가 올 때까지 기다리는 시간"과 유사하다.

2. 가장 중요한 특징: 무기억성 (Memorylessness)

  • 지수분포를 특별하게 만드는 가장 중요한 성질이다. "과거는 미래에 영향을 주지 않는다"는 뜻이다.

비유:
당신이 전구를 갈아 끼웠다. 이 전구가 100시간 동안 고장이 안 났다고 해서, 앞으로 1시간 내에 고장 날 확률이 더 높아지는 것은 아니다. 전구는 마치 새것처럼 매 순간 동일한 고장 확률을 가진다.

  • 즉, 이미 기다린 시간은 앞으로 기다릴 시간에 전혀 영향을 주지 않는다. 이 성질 때문에 지수분포는 전자 부품의 수명이나 방사성 붕괴 등을 설명하는 데 아주 적합하다.

3. 수식과 파라미터 ($\lambda$)

지수분포의 확률밀도함수(PDF)는 다음과 같다. ($x \ge 0$)

$$f(x; \lambda) = \lambda e^{-\lambda x}$$

여기서 $\lambda$ (람다, Lambda)발생률(Rate Parameter)이다.

  • $\lambda$가 클수록: 사건이 자주 발생한다. 그래프가 $y$축에 붙어서 급격하게 떨어진다. (대기 시간이 짧아진다.)
  • $\lambda$가 작을수록: 사건이 드물게 발생한다. 그래프가 완만하게 넓게 퍼진다. (대기 시간이 김)
  • 평균(Mean): $\frac{1}{\lambda}$ (사건이 일어날 때까지의 평균 대기 시간)

4. 포아송 분포와의 관계 (동전의 양면)

지수분포를 이해할 때 포아송 분포와 짝지어 생각하면 매우 명확해진다.

구분 포아송 분포 (Poisson) 지수분포 (Exponential)
관점 횟수 (Count) 시간 (Time interval)
질문 "정해진 1시간 동안 사건이 몇 번 일어나는가?" "다음 사건이 일어날 때까지 얼마나 걸리는가?"
변수 이산형 (0번, 1번, 2번...) 연속형 (0.5초, 3.2분...)

5. 대표적인 활용 사례

  1. 제품 수명: 우발적인 고장이 발생하는 전자 부품의 수명 예측.
  2. 콜센터: 다음 상담 전화가 걸려올 때까지의 대기 시간.
  3. 웹사이트: 다음 방문자가 접속할 때까지 걸리는 시간.
  4. 지진: 다음 지진이 발생할 때까지의 시간 간격.

📊 정규분포 (Normal Distribution)

정규분포(Normal Distribution)는 통계학에서 가장 중요하고 유명한 분포로, 흔히 '종 모양(Bell Curve)'라고 부른다.
자연 현상, 사회 현상, 그리고 공학적 데이터 등 우리 주변의 수많은 데이터가 놀랍게도 이 분포를 따르기 때문에 '정규(Normal)'라는 이름이 붙었다.

1. 형태와 특징: 완벽한 균형

정규분포 그래프는 가운데가 가장 높고 양쪽으로 갈수록 낮아지는 좌우 대칭 형태이다.

  • 중심의 의미: 그래프의 가장 높은 봉우리(중심)는 평균($\mu$)이자, 중앙값, 최빈값이다. 즉, 평균 근처의 데이터가 가장 많다.
  • 좌우 대칭: 평균을 기준으로 왼쪽(평균보다 작은 값)과 오른쪽(평균보다 큰 값)의 확률이 데칼코마니처럼 똑같다.
  • 점근법: 양쪽 꼬리는 $x$축에 끝없이 가까워지지만, 결코 닿지는 않는다. (이론적으로는 $-\infty$에서 $+\infty$까지 뻗어 있다.)

2. 분포를 결정하는 두 가지 열쇠 ($\mu, \sigma$)

정규분포의 모양은 오직 두 가지 숫자에 의해 결정된다.

  1. 평균 ($\mu$, 뮤): 위치를 결정한다.
    • 그래프의 중심축이 어디에 있는지를 나타낸다.
    • $\mu$가 커지면 그래프 전체가 오른쪽으로 이동한다.
  2. 표준편차 ($\sigma$, 시그마): 뚱뚱함을 결정한다.
    • 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타낸다.
    • $\sigma$가 크면: 데이터가 널리 퍼져서 그래프가 낮고 넓적한 산 모양이 된다.
    • $\sigma$가 작으면: 데이터가 평균에 몰려 있어서 그래프가 높고 뾰족한 첨탑 모양이 된다.

3. 경험적 법칙 (68-95-99.7 규칙)

정규분포에서 가장 실용적이고 중요한 개념이다. 평균($\mu$)과 표준편차($\sigma$)만 알면 데이터가 어디에 얼마나 포함되는지 바로 알 수 있다.

  • $\mu \pm 1\sigma$ (평균에서 표준편차 1배 범위): 전체 데이터의 약 68%가 이 안에 있다
  • $\mu \pm 2\sigma$ (평균에서 표준편차 2배 범위): 전체 데이터의 약 95%가 이 안에 있다. (보통 여기까지를 '정상 범위'로 많이 본다.)
  • $\mu \pm 3\sigma$ (평균에서 표준편차 3배 범위): 전체 데이터의 약 99.7%가 이 안에 있다. 즉, 이 범위를 벗어나는 값은 거의 기적에 가까운(혹은 불량인) 값이다.

4. 수식 (참고용)

확률밀도함수 수식은 복잡해 보이지만, $\mu$와 $\sigma$가 어떻게 들어가는지만 보면 된다.

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$$

5. 왜 중요한가 (중심극한정리)

이것이 정규분포가 '통계의 왕'인 이유다.

중심극한정리 (Central Limit Theorem):
원래 데이터가 무슨 분포(지수분포든, 이상한 분포든 상관없이)를 따르든 간에, 표본을 많이 뽑아서 그 평균들을 모아보면, 그 평균들의 분포는 정규분포에 가까워진다.

이 성질 덕분에 우리는 세상의 복잡한 데이터들을 정규분포라는 하나의 틀로 해석하고 예측할 수 있게 된다.


📊 표준 정규분포 (Standard Normal Distribution)

표준 정규분포는 세상의 수많은 정규분포들을 서로 비교할 수 있도록 하나의 기준으로 통일시킨 분포다.

위에서 다룬 정규분포는 평균($\mu$)와 표준편차($\sigma$)에 따라 모양이 달라진다. 이것을 평균이 0, 표준편차가 1인 분포로 변환한 것이 바로 표준 정규분포다.

이 과정에서 사용되는 핵심 도구가 바로 Z-점수(Z-score)이다.


1. 필요한 이유 (비교의 문제)

서로 다른 집단의 데이터를 비교할 때 필수적이다.

예시:

  • 철수: 수학 시험에서 80점을 받았다. (반 평균 60점, 표준편차 10)
  • 영희: 영어 시험에서 85점을 받았다. (반 평균 80점, 표준편차 2)

단순히 점수만 보면 영희(85점)가 철수(80점)보다 높다. 하지만 각 과목의 난이도(평균)와 퍼짐 정도(표준편차)가 다르다. 누가 상대적으로 더 잘했는지 계산이 필요하다.

이때 두 점수를 같은 기준(표준 정규분포)으로 변환하면 공정한 비교가 가능해진다.

2. Z-점수 (Z-score): 통계의 만능 자

Z-점수는 "어떤 데이터가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가?"를 나타내는 수치이다. 이를 통해 단위를 없애고 위치만 남긴다.

$$Z = \frac{X - \mu}{\sigma}$$

  • $X$: 나의 데이터 값
  • $\mu$: 평균
  • $\sigma$: 표준편차

위의 식을 계산하면 아래와 같다.

  • 철수의 수학 Z-점수: $(80 - 60) / 10 = \mathbf{+2.0}$
  • 영희의 영어 Z-점수: $(85 - 80) / 2 = \mathbf{+2.5}$

$\rightarrow$ 철수는 평균보다 표준편차의 2배만큼 잘했고, 영희는 2.5배만큼 잘했다. 결론적으로 상대적인 성적은 영희가 더 우수하다.

3. 표준 정규분포 그래프의 특징

모든 데이터를 Z-점수로 바꾸면, 그 분포는 무조건 아래와 같은 형태가 된다.

  • 중심(평균): 항상 0이다. ($Z=0$은 딱 평균이라는 뜻)
  • 단위(표준편차): 항상 1이다.
  • 해석:
    • Z = +1: 평균보다 1 표준편차만큼 높음 (상위 약 16%)
    • Z = -1: 평균보다 1 표준편차만큼 낮음 (하위 약 16%)
    • Z = +2: 평균보다 2 표준편차만큼 높음 (상위 약 2.3%, 꽤 드문 케이스)

4. 표준 정규분포표 (Z-Table)

과거에는 컴퓨터가 없었기 때문에, 수학자들이 표준 정규분포의 면적(확률)을 미리 계산해서 표로 만들어두었다. 이것이 표준 정규분포표이다.

우리가 어떤 데이터든 Z-점수로만 바꾸면, 이 표를 이용해 "내가 상위 몇 %인지", "합격할 확률이 얼마인지"를 바로 찾을 수 있다.

요약하면:

  • 표준 정규분포: 평균이 0, 표준편차가 1인 기준 분포.
  • Z-점수: 내 데이터가 평균에서 얼마나 멀리 있는지를 알려주는 '통계적 주소'.

📊 와이블 분포(Weibull Distribution)

와이블 분포는 신뢰성 공학에서 '만능 맥가이버 칼' 또는 '카멜레온'이라고 불리는 아주 강력한 분포다.

이유는 이 분포는 모수(Parameter)를 조절함에 따라 다른 분포들(지수분포, 정규분포 등)로 변신할 수 있기 때문이다. 기기의 수명데이터를 분석할 때 가장 유연하고 강력해서 현업에서 가장 많이 사용된다.


1. 만능인 이유 (카멜레온 같은 성격)

앞서 다룬 분포들은 성격이 고정되어 있다.

  • 지수분포: 우발적인 고장만 설명 가능 (일정한 고장률)
  • 정규분포: 마모되어서 생기는 고장만 설명 가능 (평균 중심)

하지만 현실의 기계는 처움에는 불량이 많다가(초기 고장), 중간에는 안정적이다가(우발 고장), 나중에는 낡아서 고장(마모 고장)이 발생한다. ** 와이블 분포는 이 모든 상황을 수학식 하나로 표현할 수 있다.**

2. 핵심 열쇠: 형상 모수 ($\beta$, 베타)

와이블 분포의 모양을 결정짓는 가장 중요한 숫자이다. 이 $\beta$ 값에 따라 고장의 원인을 파악할 수 있다.

  • $\beta < 1$ (감소형): 초기 고장 (Infant Mortality)
    • 시간이 지날수록 고장률이 줄어든다.
    • 의미:: 제조상의 결함이나 불량품이 초기에 걸러지는 단계이다.
    • 비유:: 아기가 태어나자마자 아픈 경우와 비슷하다고 해서 '유아기 사망'이라고도 부른다.
  • $\beta = 1$ (일정형): 우발 고장 (Random Failure)
    • 시간과 상관없이 고장률이 일정하다.
    • 의미:: 이때 와이블 분포는 '지수분포'와 똑같아진다.
    • 비유:: 멀쩡하던 기계가 벼락을 맞거나 사용자의 실수로 고장 나는 경우다.
  • $\beta > 1$ (증가형): 마모 고장 (Wear-out)
    • 시간이 지날수록 고장률이 급격히 올라간다.
    • 의미: 부품이 낡고 닳아서 수명이 다해가는 단계이다.
    • $\beta$가 3~4 정도 되면 '정규분포'와 모양이 비슷해진다.

3. 또 하나의 열쇠: 척도 모수 ($\eta$, 에타)

형상 모수($\beta$)가 그래프의 '모양'을 결정한다면, 척도 모수($\eta$)는 그래프를 가로로 얼마나 늘릴지(Stretch)를 결정한다.

  • 특정 수명 (Characteristic Life): 전체 부품의 63.2%가 고장 나는 시점을 의미한다.
  • 평균수명(MTTF)과는 약간 다르지만, 현장에서는 "대략 이쯤 되면 60% 이상 고장나는구나"라고 판단하는 척도로 사용한다.

4. 욕조 곡선 (Bathtub Curve)과의 관계

기기 고장 분석에서 가장 유명한 그래프인 '욕조 곡선'을 와이블 분포로 완벽하게 설명할 수 있다.

  • 왼쪽 (초기 고장): $\beta < 1$ 인 와이블 분포 구간
  • 가운데 (우발 고장): $\beta = 1$ 인 와이블 분포 (지수분포) 구간
  • 오른쪽 (마모 고장): $\beta > 1$ 인 와이블 분포 (정규분포 유사) 구간

5. 요약 및 장점

특징 내용
유연성 초기 불량, 우발 고장, 마모 고장 모두 커버 가능
데이터 데이터 개수가 적어도(심지어 2~3개라도) 분석이 가능함
예측력 미래에 언제 고장이 급증할지 예측하는 데 탁월함

결론적으로:
현업에서 "데이터가 무슨 분포인지 모르겠다" 싶으면 일단 와이블 분포를 돌려본다. 그러면 $\beta$ 값이 나오는데, 그 값을 보고 "아, 이건 초기 불량 문제구나($\beta<1$)" 혹은 "이건 수명이 다 됐구나($\beta>1$)"라고 진단할 수 있게 된다.


📊 욕조 곡선(Bathtub Curve)

욕조 곡선(Bathtub Curve)은 기계나 부품이 태어나서 죽을 때까지 겪게 되는 고장률의 변화를 그래프로 그린 것이다.

그 모양이 마치 단면을 자른 욕조처럼 생겼다고 해서 이런 이름이 붙. 와이블 분포에서 알아본 $\beta$(형상 모수) 값에 따라 이 곡선을 세 구간으로 완벽하게 나눌 수 있다.


1. 제1구간: 초기 고장기 (Infant Mortality Period)

"아직 적응이 덜 된 상태"

  • 형태: 고장률이 높게 시작해서 급격히 감소하는 구간이다. (욕조의 왼쪽 벽)
  • 와이블 분포: $\beta < 1$ (감소형)
  • 원인:
    • 설계 실수, 부품 불량, 조립 불량, 작업자 미숙 등.
    • 기본적으로 약하거나 문제가 있는 제품들이 초반에 걸러지는 시기이다.
  • 대처 전략 (Burn-in):
    • 고객에게 제품을 보내기 전에 공장에서 미리 가동(Burn-in)을 시켜본다.
    • 이 과정에서 초기 불량을 미리 다 터트리고, 살아남은 튼튼한 제품만 출고한다.

2. 제2구간: 우발 고장기 (Random Failure Period)

"가장 튼튼하게 잘 작동하는 시기"

  • 형태: 고장률이 낮고 일정하게 유지되는 구간이다. (욕조의 평평한 바닥)
  • 와이블 분포: $\beta = 1$ (일정형 $\rightarrow$ 지수분포와 동일)
  • 원인:
    • 제품 자체의 결함보다는 외부적인 요인(낙뢰, 사용자의 실수, 갑작스러운 충격)으로 고장이 발생한다.
    • 언제 고장 날지 예측하기 가장 어려운 시기이다.
  • 대처 전략:
    • 예방 정비가 소용없다(어제 점검했어도 오늘 번개 맞으면 고장이 발생한다).
    • 따라서 중요한 시스템이라면 예비 장비(Redundancy)를 마련해 두거나, 고장 시 빨리 수리하는 체계를 갖춰야 한다.
    • 우리가 흔히 말하는 '제품의 수명'은 주로 이 구간의 길이를 말한다.

3. 제3구간: 마모 고장기 (Wear-out Period)

"이제 늙고 지친 상태"

  • 형태: 고장률이 급격히 증가하는 구간이다. (욕조의 오른쪽 벽)
  • 와이블 분포: $\beta > 1$ (증가형 $\rightarrow$ 정규분포와 비슷)
  • 원인:
    • 노화, 부식, 마찰, 피로 누적 등.
    • 기계가 제 수명을 다해 여기저기서 삐그덕거리기 시작하는 단계이다.
  • 대처 전략 (Preventive Maintenance):
    • 이 시기가 오기 직전에 부품을 미리 교체(예방 정비)해야 한다.
    • 자동차가 10만 km를 뛰면 타이밍 벨트를 갈아주는 것이 바로 마모 고장기에 진입하는 것을 막기 위해서이다.

한 눈에 보는 요약표

구분 초기 고장기 (왼쪽) 우발 고장기 (가운데) 마모 고장기 (오른쪽)
별칭 유아기 사망 (Infant Mortality) 내용연수 (Useful Life) 노후기 (Wear-out)
고장률 감소 ($\searrow$) 일정 ($\rightarrow$) 증가 ($\nearrow$)
와이블 $\beta < 1$ $\beta \approx 1$ $\beta > 1$
핵심 전략 Burn-in (초기 불량 제거) 모니터링 (신속 대응) 예방 교체 (수명 연장)

📊 포아송 분포(Poisson Distribution)

포아송 분포는 통계학에서 이산 확률 분포(Discrete Probability Distribution)의 한 종류로, 정해진 시간이나 공간의 구간 동안 어떤 사건이 몇 번 발생할 확률을 모델링한다.

고장 분석에서는 "일정 기간 동안 몇 건의 고장이 발생할까?"라는 질문에 답할 때 사용된다.


1. 핵심 개념: 횟수를 세는 분포

포아송 분포는 사건의 발생 횟수($k$)에만 관심을 둔다.

  • 이산형 (Discrete): 사건 횟수는 셀 수 있는 값(0번, 1번, 2번...)으로 나타납니다. 시간처럼 연속적인 값이 아니다.
  • 독립성: 각 사건의 발생은 서로 독립적이며, 과거에 사건이 발생했는지 여부가 미래의 사건 발생 확률에 영향을 주지 않는다.
  • 일정률: 사건이 발생하는 평균 비율($\lambda$)은 해당 구간 내에서 일정해야 한다.

2. 단 하나의 모수: 평균 발생률 ($\lambda$)

포아송 분포는 오직 하나의 모수 $\lambda$ (람다)에 의해서만 결정된다.

  • $\lambda$의 의미: 관심 있는 구간(예: 1시간, 100km, 1일) 동안 평균적으로 사건이 발생하는 횟수를 나타낸다.
  • 특징: 포아송 분포에서는 평균($\mu$)과 분산($\sigma^2$)이 모두 $\lambda$로 같다.

예시: 어떤 기계가 하루 평균 0.5회 고장이 난다면, $\lambda = 0.5$ 이다. 이때 포아송 분포는 "내일 고장이 2번 날 확률", "고장이 0번 날 확률" 등을 계산해 준다.

3. 확률 질량 함수 (PMF)

$X$가 포아송 분포를 따르는 이산 확률 변수일 때, $k$번 사건이 발생할 확률은 다음 수식으로 계산된다.

$$P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}$$

  • $k$: 우리가 알고 싶은 사건의 횟수 ($0, 1, 2, 3, \dots$)
  • $\lambda$: 평균 발생 횟수 (모수)
  • $e$: 자연 상수 (약 2.71828...)
  • $k!$: $k$의 계승 ($k$ factorial)

4. 신뢰성 공학에서의 활용 (지수분포와의 관계)

포아송 분포는 신뢰성 분석에서 지수분포와 동전의 양면처럼 사용된다.

분포 질문 관점 모수
포아송 분포 일정 시간 동안 고장이 몇 번 날까? 횟수 (Count) $\lambda_{count}$ (평균 횟수)
지수 분포 고장이 다음에 날 때까지 몇 시간 걸릴까? 시간 (Time) $\lambda_{rate}$ (고장 발생률)

만약 기기의 고장 발생률이 $\lambda_{rate}$로 일정하다면, 시간 $t$ 동안 발생하는 고장의 평균 횟수는 $\lambda = \lambda_{rate} \times t$ 가 되며, 이 $\lambda$ 값을 포아송 분포에 넣어 횟수 확률을 계산할 수 있다.

5. 대표적인 응용 사례

  1. 제조 품질: 100제곱미터의 천에 존재하는 결함(흠집)의 수.
  2. 통신: 콜센터가 1분 동안 수신하는 전화 통화 수.
  3. 시스템 유지보수: 서버가 하루 동안 다운되는 횟수.

📊 대수정규분포 (Log-Normal Distribution)

대수정규분포는 어떤 확률 변수 $X$에 자연 로그($\ln$)를 취했을 때, 그 값이 정규분포를 따르는 연속 확률 분포이다.

즉, $X$가 대수정규분포를 따를 때, $\ln(X)$는 정규분포를 따른다.

이 분포는 데이터가 음수일 수 없고 (시간, 무게 등), 오른쪽으로 길게 꼬리를 빼는 비대칭(Skewed) 형태를 가질 때 매우 유용하다.


1. 핵심 개념: '정규화'된 비대칭 분포

데이터가 정규분포를 따르지 않을 때, 때로는 로그를 취하여 데이터를 변환하면 정규분포 형태를 만들 수 있다. 대수정규분포는 바로 이 로그 변환이 필요한 비대칭 데이터를 모델링하기 위해 사용된다.

  • 가장 큰 특징:
    • 그래프가 오른쪽으로 길게 치우친 형태(우측 비대칭)를 가진다. (평균보다 작은 값들이 많고, 아주 큰 예외적인 값들이 꼬리를 만든다.)
    • 변수 $X$는 항상 0보다 커야 한다. (로그를 취할 수 없으므로)

2. 고장 분석에서의 활용 🛠️

대수정규분포가 신뢰성 공학에서 중요한 두 가지 주요 분야가 있다.

① 수리 시간 (MTTR) 분석

시스템이 고장 난 후 다시 작동 가능하게 만드는 수리 시간(MTTR)은 대수정규분포를 따르는 경우가 많다.

  • 대부분의 수리는 평균 시간 내에 끝나지만, 아주 복잡하거나 예상치 못한 문제가 발생하면 수리 시간이 길어져 극단적인 긴 꼬리가 생기기 때문이다. 이 긴 꼬리를 정규분포는 잘 모델링하지 못하지만, 대수정규분포는 잘 표현한다.

② 피로 및 마모 수명

금속 부품의 피로 수명(Fatigue Life)이나 화학적 침식으로 인한 마모 수명 등, 재료의 성능이 누적된 손상으로 인해 감소하는 경우에도 이 분포가 사용된다.

3. 모수: 숨겨진 정규분포의 평균/표준편차

대수정규분포의 형태를 결정하는 모수는 실제 데이터($X$)의 평균과 표준편차가 아니다. 대신, 변환된 값인 $\ln(X)$의 모수를 사용한다.

  • 위치 모수 ($\mu$): 변환된 값 ($\ln(X)$)의 평균을 결정한다.
  • 척도 모수 ($\sigma$): 변환된 값 ($\ln(X)$)의 표준편차를 결정한다.

이러한 $\mu$와 $\sigma$를 사용하여 분포의 중심과 퍼짐 정도를 제어할 수 있다.


📊 감마 분포 (Gamma Distribution) 상세 설명

감마 분포는 이전에 학습했던 지수분포(Exponential Distribution)를 일반화한 연속 확률 분포이다.

지수분포가 "첫 번째 사건이 일어날 때까지의 대기 시간"을 모델링한다면, 감마 분포는 "여러 개의 독립적인 사건이 누적되어 $k$번째 사건이 일어날 때까지의 총 대기 시간"을 모델링한다.


1. 핵심 개념: 누적 대기 시간 (Accumulated Wait Time)

감마 분포는 어떤 목표(고장)에 도달하기 위해 여러 단계(사건)를 거쳐야 하는 상황을 설명하는 데 가장 적합하다.

  • 비유: 복잡한 기계가 고장 나기 위해서는 세 가지 주요 부품이 순차적으로 고장 나야 한다고 가정해 본다. 이 세 부품이 각각 독립적인 지수분포를 따른다면, 이 세 고장 시간을 합친 총 시간이 바로 감마 분포를 따른다.
  • 용도: 신뢰성 분야에서는 예비 시스템(Redundancy)이 있는 경우처럼, 여러 단계의 보호 장치가 모두 실패해야 최종적으로 시스템이 멈추는 경우의 수명 분석에 사용된다.

2. 분포를 결정하는 두 모수

감마 분포는 두 개의 중요한 매개변수에 의해 그 모양이 결정된다.

모수 (Parameter) 기호 의미 역할
형상 모수 (Shape) $\alpha$ (알파) 또는 $k$ 몇 번의 사건이 누적되어야 하는가 (횟수) 그래프의 봉우리 위치와 모양을 결정한다.
척도 모수 (Scale) $\beta$ (베타) 또는 $\theta$ 각 사건이 발생하는 평균 비율과 관련됨 분포의 전체적인 퍼짐 정도를 결정한다.
  • $\alpha$의 효과: $\alpha$가 1보다 클수록 분포의 봉우리가 0에서 멀어지고 종 모양(Normal-like)에 가까워진다. $\alpha$가 1일 때, 감마 분포는 곧 지수분포가 된다.

3. 다른 분포와의 관계

  • 지수 분포 (Exponential Distribution): 감마 분포에서 $\alpha = 1$ 일 때, 이는 지수분포와 동일하다. (1번째 사건이 일어날 때까지의 대기 시간)
  • 포아송 분포 (Poisson Distribution): 포아송 분포가 '횟수'를 계산한다면, 감마 분포는 그 포아송 사건의 '누적 대기 시간'을 계산하여 상호 보완적인 관계에 있다.

4. 신뢰성 공학에서의 활용

  1. 예비 시스템 수명 분석: 부품 A가 고장 나면 부품 B가 대신 작동하는 이중화(Redundancy) 시스템의 전체 수명을 모델링할 때 사용된다. (고장이 두 번 일어나야 시스템이 멈추므로 $\alpha=2$인 감마 분포를 따를 수 있다.)
  2. 대기열 분석: 서비스 센터에서 여러 단계를 거쳐야 하는 작업의 총 소요 시간 예측.
  3. 랜덤 충격 모델: 기계가 고장 나기 위해 $k$번의 충격(Shocks)을 견뎌야 한다고 가정할 때, $k$번째 충격이 올 때까지의 시간을 모델링한다.

요약하자면:

감마 분포는 "여러 번의 독립적인 고장 단계를 거쳐야 최종적으로 시스템이 멈추는 경우"의 수명 분석을 위해 지수분포를 확장하여 만든 유연한 분포이다.


📊 베타 분포 (Beta Distribution) 상세 설명 🎯

베타 분포는 확률 변수의 범위가 0과 1 사이의 유한한 구간($[0, 1]$)으로 한정될 때 사용되는 연속 확률 분포이다.

이러한 특성 때문에 비율(Proportion), 확률(Probability), 또는 특정 구간 내에서의 시간과 같이 0%에서 100% 사이의 값을 가지는 데이터를 모델링하는 데 가장 적합하다.


1. 핵심 개념: 유한 범위 내의 유연한 모델

베타 분포의 가장 큰 특징은 극도로 유연한 모양을 가질 수 있다는 것이다. 두 개의 형상 모수를 조정하여, 좌우로 치우치거나(Skewed), 중앙에 몰리거나, 심지어 U자 모양까지 자유롭게 만들 수 있다.

  • 용도: 고장 분석에서는 부품이 고장 날 확률 자체나, 전체 수명 시간 중 특정 상태에 머무는 시간의 비율 등을 모델링할 때 사용된다.

2. 분포를 결정하는 두 가지 형상 모수 ($\alpha, \beta$)

베타 분포는 두 개의 형상 모수(Shape Parameter) $\alpha$와 $\beta$에 의해 결정된다. 이 두 모수는 종종 '성공 횟수''실패 횟수'의 개념으로 해석된다.

  • $\alpha$ (알파): 첫 번째 카테고리의 관측치 수 (예: 성공 횟수)
  • $\beta$ (베타): 두 번째 카테고리의 관측치 수 (예: 실패 횟수)

Shape에 따른 해석

$\alpha$와 $\beta$의 관계 그래프 모양 확률적 의미
$\alpha = \beta$ 대칭 종 모양 성공 확률과 실패 확률이 균형을 이룸 ($\alpha = \beta > 1$)
$\alpha < \beta$ 오른쪽으로 치우침 성공 확률이 낮을 가능성이 높음 (0 근처에 몰림)
$\alpha > \beta$ 왼쪽으로 치우침 성공 확률이 높을 가능성이 높음 (1 근처에 몰림)
$\alpha = 1, \beta = 1$ 균일 분포 (Uniform Distribution) 모든 비율이 발생할 확률이 동일함

3. 신뢰성 및 프로젝트 관리에서의 활용

  1. PERT 분석 (프로젝트 관리):
    • 프로젝트 관리 기법인 PERT(Program Evaluation and Review Technique)에서는 각 작업의 완료 시간을 예측하기 위해 베타 분포를 사용한다. 작업이 낙관적인 시간(0)비관적인 시간(1) 사이의 특정 비율로 완료될 확률을 모델링한다.
  2. 베이지안 통계 (Bayesian Statistics):
    • 어떤 부품의 고장률(확률)을 예측할 때, 베타 분포는 사전 정보(Prior)로 활용된다. 예를 들어, 새로운 부품을 테스트하기 전에 "이 부품의 성공률은 90% 근처일 것이다"라는 사전 지식을 베타 분포 형태로 반영할 수 있다.
  3. 성능 비율 모델링:
    • 시스템의 효율성이 0%와 100% 사이에서 어떻게 분포하는지 모델링할 때 사용된다.