본문 바로가기
Big Data/Math

통계에서의 정규화

by Wikinist 2023. 8. 8.


통계에서의 "정규화"는 다양한 의미를 가지고 있는데, 주로 두 가지 주요 의미로 사용됩니다. 첫 번째로는 데이터를 표준화하거나 스케일링하여 분석을 용이하게 만드는 과정을 의미하며, 두 번째로는 확률 분포를 따르는 데이터를 변환하여 정규분포(가우시안 분포)를 따르도록 하는 과정을 의미합니다.

데이터 스케일링 및 표준화

데이터 정규화의 첫 번째 의미는 데이터의 범위를 조절하여 분석을 쉽게 할 수 있도록 만드는 과정을 의미합니다. 주로 다음과 같은 방법들로 이루어집니다.

Min-Max Scaling (최소-최대 스케일링): 데이터의 최소값을 0, 최대값을 1로 매핑하여 데이터를 0과 1 사이의 범위로 스케일링합니다. 공식은 다음과 같습니다:

Min-Max Scaling

Z-Score Scaling (Z-점수 표준화): z-score를 사용하여 데이터를 표준화할 때, 표준 편차가 1이 되도록 조정하는 것을 말합니다. 이를 통해 데이터의 단위를 표준 편차의 배수로 변환하고, 데이터의 분포를 표준 정규분포(평균이 0이고 표준 편차가 1인 정규분포)에 가깝게 만들 수 있습니다.

표준화된 z-score는 다음과 같이 계산됩니다:

Z-Score Scaling

​정규분포로의 변환

정규화의 두 번째 의미는 데이터가 정규분포를 따르도록 변환하는 과정을 의미합니다. 정규분포는 통계 분석에서 일반적으로 가정되는 분포로, 데이터의 분석 및 예측을 용이하게 만들 수 있습니다. 이 과정은 다양한 방법으로 이루어질 수 있습니다. 예를 들어, Box-Cox 변환, Yeo-Johnson 변환 등이 있습니다.

정규화는 데이터의 특성과 분석 목적에 따라 적절한 방법을 선택하여 사용해야 합니다. 스케일링과 표준화는 주로 모델 학습 과정에서 변수들 간의 단위 차이를 해소하기 위해 사용되며, 정규분포로의 변환은 통계 분석에서 가정을 충족시키거나 예측 모델의 성능을 향상시키기 위해 사용됩니다.

해당 게시글은 ChatGPT의 도움을 받아 작성되었습니다.

'Big Data > Math' 카테고리의 다른 글

통계적 검정방법  (0) 2023.08.09
공분산과 상관계수  (0) 2023.08.08
4분위수(Quartiles)  (0) 2023.08.07
연속형 / 이산형 변수  (0) 2023.08.07
불편 표준편차 & 불편 분산  (0) 2023.08.07