본문 바로가기
Big Data/DataAnalysis & Manipulate

DataFrame 통계 함수

by Wikinist 2023. 8. 11.

Pandas는 Python에서 데이터 조작과 분석을 위한 강력한 라이브러리입니다. DataFrame 객체는 데이터를 테이블 형태로 다루기에 이용되며, 다양한 통계 함수를 활용하여 데이터를 분석하고 요약할 수 있습니다. 아래에는 몇 가지 일반적인 통계 함수와 그 설명을 제공해 드리겠습니다:

mean(): 평균을 계산합니다. 수치 데이터의 평균값을 계산할 때 주로 사용됩니다.

median(): 중앙값을 계산합니다. 데이터를 작은 값에서 큰 값으로 정렬한 후 가운데 위치한 값을 반환합니다. 이상치에 민감하지 않은 중심 경향성 측정치입니다.

std(): 표준 편차를 계산합니다. 데이터의 변동 정도나 산포도를 나타내며, 값이 작을수록 데이터가 평균 주변에 밀집되어 있다는 의미입니다.

var(): 분산을 계산합니다. 표준 편차의 제곱으로, 데이터의 변동 정도를 측정하는 지표입니다.

sum(): 합계를 계산합니다. 수치 데이터의 총합을 반환합니다.

count(): 데이터의 개수를 계산합니다. 결측치를 제외한 유효한 데이터의 개수를 세는 데 사용됩니다.

min(), max(): 최솟값과 최댓값을 계산합니다. 데이터 중에서 가장 작은 값과 큰 값을 반환합니다.

describe(): 데이터의 주요 통계 정보를 요약하여 보여줍니다. 평균, 표준 편차, 최솟값, 최댓값, 중앙값 등을 한 번에 확인할 수 있습니다.

quantile(q): 주어진 분위수(0~1 사이의 값)에 해당하는 값을 반환합니다. 예를 들어 quantile(0.25)는 25% 분위수 값을 의미합니다.

cov(): 두 변수간의 공분산을 계산합니다. 두 변수가 함께 어떻게 변하는지를 나타냅니다.

corr(): 두 변수간의 상관관계를 계산합니다. -1부터 1까지의 값으로 상관 정도를 표현하며, 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 나타냅니다.

value_counts(): 범주형 데이터에서 각 값의 빈도를 계산합니다. 주로 카테고리나 클래스의 분포를 파악할 때 사용됩니다.

이 외에도 Pandas에는 다양한 통계 함수와 옵션이 존재합니다. 데이터의 종류와 분석 목적에 따라 적절한 함수를 선택하여 사용하면 됩니다.

해당 게시글은 ChatGPT의 도움을 받아 작성되었습니다.

'Big Data > DataAnalysis & Manipulate' 카테고리의 다른 글

pandas 선택함수  (0) 2023.08.11
DataFrame groupby()  (0) 2023.08.11
DataFrame Function 1  (0) 2023.08.11
pandas DataFrame 인덱스  (0) 2023.08.10
ANOVA 예제  (0) 2023.08.10