📌 분포
- 목적: 분포의 개념과 기기의 고장 확률 분석을 위한 분포의 개념에 대해서 알아본다.
🔎 분포(Distribution)란 무엇인가?
✅ “분포 = 데이터가 어떻게 퍼져 있는지 보여주는 그림“
많은 수치를 보면
- 어떤 값이 많이 나오는지
- 어떤 값은 거의 안 나오는지
- 값들이 전체적으로 어떻게 생겼는지
이런 값들을 쉽게 알 수 있도록 해주는 것이 분포다.
➤ 예를 들어, 기계가 고장 날 때까지 걸린 시간이 아래와 같다고 가정한다.
5시간, 6시간, 7시간, 20시간, 22시간, 23시간, 100시간...
이런 데이터만 보면 복잡해 보이지만, 여러 분석이 가능하다.
예를 들어:
- 대부분 10~30시간 사이에 몰려 있다.
- 하지만 아주 오래 버틴 기계도 있다.
이러한 내용들을 시각적으로 보여주는 게 분포다.

🔎 **기계의 고장 분석에서 “분포“를 사용하는 이유
기계나 부품의 고장은 무작위로 발생하지 않으며, 대부분 일정한 패턴이 있고 이 패턴을 설명하는 수학모델이 바로 분포다.
예를 들어:
- 초기 불량 → 특정 분포
- 시간이 지날수록 마모 → 또 다른 분포
- 랜덤한 순간 갑자기 고장 → 또 다른 분포
이처럼 고장의 “패턴“이 분포마다 다르기 때문에 분포를 선택하면 고장률을 정확히 계산할 수 있고 교체 시기도 정할 수 있다.
🔎 확률밀도함수(PDF, Probability Density Function)
- 확률밀도함수는 연속적인 데이터가 어디에 얼마나 밀집해 있는지를 그림(함수)으로 나타낸 것이다.
- 쉽게 말해, "특정 구간에서 사건이 발생할 확률이 얼마나 높은지"를 보여주는 그래프의 높이라고 생각하면 된다.
연속된 데이터의 지도
- 주사위 눈(1, 2, 3...)처럼 딱딱 떨어지는 데이터가 아니라, 키, 몸무게, 시간, 온도처럼 연속적으로 이어지는 데이터를 다룰 때 사용한다.
- 이산 확률(주사위): "3이 나올 확률은?"이라고 콕 집어 말할 수 있다.
- 연속 확률(PDF): "키가 정확히 175.00000....cm일 확률"은 사실상 0이다. 대신 "174cm에서 176cm사이일 확률"처럼 구간으로 접근해야 한다.
'높이'가 아니라 '면적'이 확률이다.
- 확률밀도함수 그래프에서 특정 구간의 넓이(먼적)가 곧 그 구간의 확률이 된다.
- 그래프의 $y$값(높이): 확률 그 자체가 아니라 "밀도(Density)"입니다. 높이가 높을수록 그 근처 값이 나올 가능성이 높다는 의미다.
- 그래프 아래의 면적: 확률이다.
- 전체 면적의 합: 모든 가능성ㅇ르 다 합친 것이므로 항상 1(100%)이 된다.
'밀도'라고 부르는 이유
- 물리학의 밀도 개념과 비슷하기 때문이다.
비유: 운동장에 흙이 쌓여 있다고 가정한다.
어느 지점의 흙 더미가 높다면, 그곳에 흙이 밀집(Dense)해 있는 것이다.
하지만 "딱 한 점"에 있는 흙의 무게를 재라고 하면 잴 수 없다.
- 일정 구역(구간)을 퍼내야 흙의 무게(확률)를 구할 수 있다.
수식
- 특정 구간 $[a, b]$ 사이의 확률 $P$는 그래프 $f(x)$를 그 구간만큼 적분(면적 계산)한 것이다.
$$P(a \le X \le b) = \int_{a}^{b} f(x) dx$$
이산 vs 연속
| 구분 | 이산 확률 분포 (예: 주사위) | 확률 밀도 함수 (예: 시간) |
|---|---|---|
| 영어 약자 | PMF (Mass Function) | PDF (Density Function) |
| 확률 구하기 | 특정 값의 높이가 곧 확률 | 특정 구간의 넓이가 확률 |
| 특정 점 확률 | $P(X=1) = 1/6$ (값 존재) | $P(X=1) = 0$ (면적이 없으므로) |
🔎 누적분포함수(CDF, Cumulative Distribution Function)
- 누적분포함수는 이름 그대로 확률이 차곡차곡 '누적되어 쌓인' 상태를 보여주는 함수이다.
- 확률밀도함수(PDF)가 "지금 이 순간의 밀도"라면, 누적분포함수(CDF)는 "처음부터 지금까지 합친 총량"을 의미한다.
핵심 개념: "여기까지 올 확률은?"
- 확률밀도함수(PDF)가 "정확히 170cm ~ 171cm 사이일 확률"을 묻는다면, 누적분포함수는 다음과 같이 묻는다.
"키가 171cm **이하일 확률은 전체의 몇 %인가?"**
- 즉, 가장 작은 값부터 시작해서 특정 값($x$)까지의 확률을 모두 더한(적분한) 값을 보여준다.
가장 쉬운 비유: "파일 다운로드"
컴퓨터에서 파일을 다운로드하는 상황을 가정한다.
- 다운로드 속도 (PDF): 순간순간의 속도이다. 속도가 빠를 때도 있고(그래프가 높음), 느릴 때도 있다.(그래프가 낮음)
- 진행률 표시줄 (CDF): "지금까지 몇 % 다운로드되었나?"를 보여준다. 0%에서 시작해 결국 100%(1.0)로 끝난다. 속도가 빠르면 진행률이 쑥 올라가고, 느리면 천천히 올라간다.
그래프의 특징
누적분포함수 그래프는 확률밀도함수와 생김새가 완전히 다르다.
- 항상 우상향: 확률은 마이너스가 될 수 없으므로, 더하면 더할수록 값은 계속 커지거나 유지된다. (절대 내려가지 않는다.)
- 0에서 시작해서 1로 끝남:
- 시작점(왼쪽 끝): 데이터의 최솟값 이전이므로 누적 확률은 0이다.
- 끝점(오른쪽 끝): 모든 데이터가 다 포함되었으므로 누적 확률은 1(100%)이 된다.
- 높이가 곧 확률: 확률밀도함수는 '면적'을 구해야 했지만, 누적분포함수는 그래프의 $y$축 값(높이)을 읽으면 바로 그게 "여기까지의 확률"이다.
PDF와 CDF 비교 (한눈에 보기)
| 특징 | 확률밀도함수 (PDF) | 누적분포함수 (CDF) |
|---|---|---|
| 의미 | 특정 구간에서의 밀집도 | 특정 값 이하가 될 확률의 총합 |
| 모양 | 산봉우리처럼 오르락내리락 함 | 계단이나 언덕처럼 계속 올라감 (S자 형태) |
| 확률 확인 | 그래프 아래의 면적을 계산 | 그래프의 높이($y$값)를 읽음 |
| 수식 관계 | CDF를 미분하면 $\rightarrow$ PDF | PDF를 적분하면 $\rightarrow$ CDF |
사용 이유
"상위 몇 %인가?"를 따질 때 아주 편리하다.
- 수능 등급: 내 젖ㅁ수가 전체 하위 96%에 해당한다면, 나는 상위 4% (1등급)이다. 이때 0.96이라는 값을 바로 알려주는 것이 누적분포함수이다.
- 불량률 관리: "부품이 1000시간 이내에 고장 날 확률"을 구할 때, 누적분포함수에서 $x=1000$일 때의 $y$값만 읽으면 끝난다.
🔎 기기 고장 예측에 사용되는 분포
고장의 발생 메커니즘(초기불량, 우발적 고장, 마모 등)에 따라 시간에 대한 고장률(hazard 또는 failure rate)이 다르게 나타난다.
따라서 고장률의 시간 변화 형태(감소, 일정, 증가, 비단조 등)에 따라 적절한 확률분포를 골라 모델링한다.
'Industry-Safety > [산업안전지도사] 공통개념' 카테고리의 다른 글
| [산업안전일반] 시각적 표시장치 (0) | 2025.11.28 |
|---|---|
| [산업안전일반] 주요 재해 지표 (도수율, 강도율) (0) | 2025.11.21 |
| [산업안전일반] 신뢰성 공학의 지표 (0) | 2025.11.21 |
| [산업안전일반] 분포의 종류 (0) | 2025.11.21 |
| [산업안전일반] 연역적 · 귀납적 (0) | 2025.11.16 |