Pandas는 Python에서 데이터 조작과 분석을 위한 강력한 라이브러리입니다. DataFrame 객체는 데이터를 테이블 형태로 다루기에 이용되며, 다양한 통계 함수를 활용하여 데이터를 분석하고 요약할 수 있습니다. 아래에는 몇 가지 일반적인 통계 함수와 그 설명을 제공해 드리겠습니다:
mean(): 평균을 계산합니다. 수치 데이터의 평균값을 계산할 때 주로 사용됩니다.
median(): 중앙값을 계산합니다. 데이터를 작은 값에서 큰 값으로 정렬한 후 가운데 위치한 값을 반환합니다. 이상치에 민감하지 않은 중심 경향성 측정치입니다.
std(): 표준 편차를 계산합니다. 데이터의 변동 정도나 산포도를 나타내며, 값이 작을수록 데이터가 평균 주변에 밀집되어 있다는 의미입니다.
var(): 분산을 계산합니다. 표준 편차의 제곱으로, 데이터의 변동 정도를 측정하는 지표입니다.
sum(): 합계를 계산합니다. 수치 데이터의 총합을 반환합니다.
count(): 데이터의 개수를 계산합니다. 결측치를 제외한 유효한 데이터의 개수를 세는 데 사용됩니다.
min(), max(): 최솟값과 최댓값을 계산합니다. 데이터 중에서 가장 작은 값과 큰 값을 반환합니다.
describe(): 데이터의 주요 통계 정보를 요약하여 보여줍니다. 평균, 표준 편차, 최솟값, 최댓값, 중앙값 등을 한 번에 확인할 수 있습니다.
quantile(q): 주어진 분위수(0~1 사이의 값)에 해당하는 값을 반환합니다. 예를 들어 quantile(0.25)는 25% 분위수 값을 의미합니다.
cov(): 두 변수간의 공분산을 계산합니다. 두 변수가 함께 어떻게 변하는지를 나타냅니다.
corr(): 두 변수간의 상관관계를 계산합니다. -1부터 1까지의 값으로 상관 정도를 표현하며, 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 나타냅니다.
value_counts(): 범주형 데이터에서 각 값의 빈도를 계산합니다. 주로 카테고리나 클래스의 분포를 파악할 때 사용됩니다.
이 외에도 Pandas에는 다양한 통계 함수와 옵션이 존재합니다. 데이터의 종류와 분석 목적에 따라 적절한 함수를 선택하여 사용하면 됩니다.
해당 게시글은 ChatGPT의 도움을 받아 작성되었습니다.
'Big Data > DataAnalysis & Manipulate' 카테고리의 다른 글
pandas 선택함수 (0) | 2023.08.11 |
---|---|
DataFrame groupby() (0) | 2023.08.11 |
DataFrame Function 1 (0) | 2023.08.11 |
pandas DataFrame 인덱스 (0) | 2023.08.10 |
ANOVA 예제 (0) | 2023.08.10 |