DataFrame 통계 함수

Pandas는 Python에서 데이터 조작과 분석을 위한 강력한 라이브러리입니다. DataFrame 객체는 데이터를 테이블 형태로 다루기에 이용되며, 다양한 통계 함수를 활용하여 데이터를 분석하고 요약할 수 있습니다. 아래에는 몇 가지 일반적인 통계 함수와 그 설명을 제공해 드리겠습니다:

mean(): 평균을 계산합니다. 수치 데이터의 평균값을 계산할 때 주로 사용됩니다.

median(): 중앙값을 계산합니다. 데이터를 작은 값에서 큰 값으로 정렬한 후 가운데 위치한 값을 반환합니다. 이상치에 민감하지 않은 중심 경향성 측정치입니다.

std(): 표준 편차를 계산합니다. 데이터의 변동 정도나 산포도를 나타내며, 값이 작을수록 데이터가 평균 주변에 밀집되어 있다는 의미입니다.

var(): 분산을 계산합니다. 표준 편차의 제곱으로, 데이터의 변동 정도를 측정하는 지표입니다.

sum(): 합계를 계산합니다. 수치 데이터의 총합을 반환합니다.

count(): 데이터의 개수를 계산합니다. 결측치를 제외한 유효한 데이터의 개수를 세는 데 사용됩니다.

min(), max(): 최솟값과 최댓값을 계산합니다. 데이터 중에서 가장 작은 값과 큰 값을 반환합니다.

describe(): 데이터의 주요 통계 정보를 요약하여 보여줍니다. 평균, 표준 편차, 최솟값, 최댓값, 중앙값 등을 한 번에 확인할 수 있습니다.

quantile(q): 주어진 분위수(0~1 사이의 값)에 해당하는 값을 반환합니다. 예를 들어 quantile(0.25)는 25% 분위수 값을 의미합니다.

cov(): 두 변수간의 공분산을 계산합니다. 두 변수가 함께 어떻게 변하는지를 나타냅니다.

corr(): 두 변수간의 상관관계를 계산합니다. -1부터 1까지의 값으로 상관 정도를 표현하며, 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계를 나타냅니다.

value_counts(): 범주형 데이터에서 각 값의 빈도를 계산합니다. 주로 카테고리나 클래스의 분포를 파악할 때 사용됩니다.

이 외에도 Pandas에는 다양한 통계 함수와 옵션이 존재합니다. 데이터의 종류와 분석 목적에 따라 적절한 함수를 선택하여 사용하면 됩니다.

해당 게시글은 ChatGPT의 도움을 받아 작성되었습니다.

저작자표시

'Big Data > DataAnalysis & Manipulate' 카테고리의 다른 글

pandas 선택함수 (0)	2023.08.11
DataFrame groupby() (0)	2023.08.11
DataFrame Function 1 (0)	2023.08.11
pandas DataFrame 인덱스 (0)	2023.08.10
ANOVA 예제 (0)	2023.08.10

All of my life

DataFrame 통계 함수

'Big Data > DataAnalysis & Manipulate' 카테고리의 다른 글

티스토리툴바

DataFrame 통계 함수

'Big Data > DataAnalysis & Manipulate' 카테고리의 다른 글

관련글

티스토리툴바