본문 바로가기

Big Data/Math14

4분위수(Quartiles) 4분위수(Quartiles) 4분위수(Quartiles)는 데이터를 일정한 구간으로 나누는데 사용되는 통계적 개념입니다. 데이터셋을 정렬하면 첫 번째 분위수(Q1), 두 번째 분위수(Q2, 중앙값), 세 번째 분위수(Q3)로 나뉩니다. 이를 이용하여 데이터의 분포를 파악하고 이상치(outlier)를 탐지하는데 활용됩니다. 첫 번째 분위수(Q1, 25% 백분위수, 1st quartile): 데이터를 작은 값에서 큰 값으로 정렬했을 때, 전체 데이터의 25% 지점에 위치한 값입니다. 이 값은 데이터의 하위 25% 범위를 의미하며, 데이터의 하위 25%가 이 값보다 작거나 같습니다. 두 번째 분위수(Q2, 50% 백분위수, Median, 2nd quartile): 데이터를 작은 값에서 큰 값으로 정렬했을 때,.. 2023. 8. 7.
연속형 / 이산형 변수 연속형 변수와 이산형 변수(범주형 변수)는 통계 및 데이터 분석에서 중요한 개념입니다. 이 두 가지 변수 유형은 데이터의 특성을 나타내는 방식에 차이가 있습니다. 연속형 변수 연속형 변수는 무한한 값을 가질 수 있는 변수입니다. 이러한 변수는 보통 실수 범위 내에서 어떤 값이든 가질 수 있습니다. 예를 들어, 키, 몸무게, 온도와 같은 물리적인 측정치가 연속형 변수에 해당합니다. 연속형 변수의 값은 무한히 많은 가능한 값을 가지며, 이들 값 사이에는 무한히 많은 중간값이 존재할 수 있습니다. 예시: 키가 170.5cm일 수도 있고 170.6cm일 수도 있으며, 그 사이에는 무수히 많은 다른 키 값이 존재합니다. 이산형 변수 (범주형 변수) 이산형 변수 또는 범주형 변수는 한정된 개수의 값을 가지며, 각 .. 2023. 8. 7.
불편 표준편차 & 불편 분산 불편 표준편차와 불편 분산은 통계량의 특정 추정값을 계산할 때, 표본 크기에 대한 보정을 고려한 개념입니다. 이를 통해 표본을 사용하여 모집단의 모수를 추정할 때 편향성을 줄이는 데 도움을 줍니다. 1. 불편 표준편차 (Unbiased Standard Deviation) 불편 표준편차는 표본 데이터를 사용하여 모집단의 표준편차를 추정할 때, 표본 크기에 대한 보정을 고려한 값입니다. 표본 표준편차를 계산할 때, 편향성을 줄이기 위해 표본 크기에 대한 보정을 적용합니다. 이로써 표본 표준편차가 모집단 표준편차를 더 정확하게 추정할 수 있게 됩니다. 2. 불편 분산 (Unbiased Variance) 불편 분산은 표본 데이터를 사용하여 모집단의 분산을 추정할 때, 표본 크기에 대한 보정을 고려한 값입니다. .. 2023. 8. 7.
모수와 통계량 모수(Parameter)와 통계량(Statistic)은 통계학에서 중요한 개념으로, 데이터를 요약하고 분석하는 데 사용됩니다. 이 두 용어는 모집단과 표본 간의 관계를 나타냅니다. 모수(Parameter) 모수는 모집단(population)의 특성을 나타내는 고정된 수치입니다. 모집단은 연구하고자 하는 전체 집단을 의미하며, 모수는 이 모집단의 특성을 정확하게 나타내는 값입니다. 하지만 실제로는 대개 모집단 전체를 조사하기 어렵기 때문에 모수를 정확하게 알기는 어렵습니다. 예를 들어, 모집단의 평균, 분산, 비율 등이 모수에 해당합니다. 통계량(Statistic) 통계량은 표본(sample)에서 얻은 값을 기반으로 모집단의 모수를 추정하는 데 사용되는 값입니다. 표본은 모집단의 일부분으로, 통계량은 표본.. 2023. 8. 7.
기술통계와 추측통계 기술통계(Descriptive Statistics)와 추측통계(Inferential Statistics)는 통계학의 두 가지 주요 분야입니다. 각각 데이터의 특성을 요약하고 설명하는 역할과 미래의 불확실성을 예측하거나 결론을 도출하는 역할을 합니다. 1. 기술통계(Descriptive Statistics) 기술통계는 주어진 데이터 집합의 특성을 요약하고 설명하는 통계적 방법을 의미합니다. 주어진 데이터의 중심 경향(평균, 중앙값, 최빈값 등)과 분산(표준편차, 범위 등)을 파악하여 데이터의 전반적인 특성을 이해하는 데 사용됩니다. 기술통계는 데이터를 직관적으로 이해하고 요약함으로써 데이터의 기본적인 패턴과 특징을 파악하는 데 도움을 줍니다. 주요 기술통계 개념 평균(Mean): 모든 값의 합을 개수로 나.. 2023. 8. 7.