본문 바로가기
Big Data/Math

4분위수(Quartiles)

by Wikinist 2023. 8. 7.

4분위수(Quartiles)

4분위수(Quartiles)는 데이터를 일정한 구간으로 나누는데 사용되는 통계적 개념입니다. 데이터셋을 정렬하면 첫 번째 분위수(Q1), 두 번째 분위수(Q2, 중앙값), 세 번째 분위수(Q3)로 나뉩니다. 이를 이용하여 데이터의 분포를 파악하고 이상치(outlier)를 탐지하는데 활용됩니다.

첫 번째 분위수(Q1, 25% 백분위수, 1st quartile): 데이터를 작은 값에서 큰 값으로 정렬했을 때, 전체 데이터의 25% 지점에 위치한 값입니다. 이 값은 데이터의 하위 25% 범위를 의미하며, 데이터의 하위 25%가 이 값보다 작거나 같습니다.

두 번째 분위수(Q2, 50% 백분위수, Median, 2nd quartile): 데이터를 작은 값에서 큰 값으로 정렬했을 때, 전체 데이터의 중앙에 위치한 값입니다. 이 값은 데이터를 반으로 나누는 중앙값을 나타냅니다.

세 번째 분위수(Q3, 75% 백분위수, 3rd quartile): 데이터를 작은 값에서 큰 값으로 정렬했을 때, 전체 데이터의 75% 지점에 위치한 값입니다. 이 값은 데이터의 상위 25% 범위를 의미하며, 데이터의 상위 25%가 이 값보다 크거나 같습니다.

이상치(outlier)

이상치(outlier)는 일반적인 데이터의 분포에서 벗어난 극단적인 값들을 의미합니다. 이상치는 종종 정상적인 데이터 분석 결과를 왜곡할 수 있으므로, 이상치를 탐지하고 처리하는 것은 중요한 작업입니다. 4분위수와 IQR(interquartile range, 사분범위)를 사용한 이상치 탐지 방법은 다음과 같습니다:

IQR 방법

IQR은 Q3과 Q1의 차이를 의미합니다. 이상치는 일반적으로 Q1 - 1.5 * IQR 미만 또는 Q3 + 1.5 * IQR 초과하는 값으로 정의됩니다. 이 범위를 벗어나는 데이터를 이상치로 간주하고 처리합니다.
4분위수와 IQR을 이용한 이상치 탐지는 상대적으로 간단하며, 수치적인 기준을 제공하여 이상치를 식별하는 데 도움을 줍니다. 하지만 모든 상황에서 완벽하게 작동하지는 않을 수 있으며, 도메인 지식과 추가적인 분석이 필요할 수 있습니다.

해당 게시글은 ChatGPT의 도움을 받아 작성되었습니다.

'Big Data > Math' 카테고리의 다른 글

공분산과 상관계수  (0) 2023.08.08
통계에서의 정규화  (0) 2023.08.08
연속형 / 이산형 변수  (0) 2023.08.07
불편 표준편차 & 불편 분산  (0) 2023.08.07
모수와 통계량  (0) 2023.08.07