df.describe() 함수는 데이터프레임(DataFrame)의 간단한 통계 요약 정보를 제공하는 기능입니다. Pandas 라이브러리에서 제공되며, 주로 숫자형 데이터의 요약 통계를 살펴보거나 데이터의 분포를 파악하는 데 사용됩니다.
df.describe() 함수는 다음과 같이 호출됩니다:
df.describe()
여기서 df는 데이터프레임 객체의 이름을 나타냅니다.
df.describe() 함수는 기본적으로 다음과 같은 통계 정보를 반환합니다:
개수(count): 각 열의 비어 있지 않은(non-null) 값의 개수를 보여줍니다.
평균(mean): 각 열의 평균 값을 계산하여 보여줍니다.
표준편차(std): 각 열의 표준편차를 계산하여 보여줍니다.
최소값(min): 각 열의 최솟값을 보여줍니다.
25번째 백분위수(25% percentile, 1st quartile): 각 열 값들의 25번째 백분위수를 보여줍니다.
50번째 백분위수(50% percentile, 중앙값, 2nd quartile): 각 열 값들의 50번째 백분위수를 보여줍니다.
75번째 백분위수(75% percentile, 3rd quartile): 각 열 값들의 75번째 백분위수를 보여줍니다.
최대값(max): 각 열의 최댓값을 보여줍니다.
이러한 통계 정보는 데이터프레임의 각 열에 대해 계산되며, 숫자형 데이터에 대해서만 계산됩니다. 만약 데이터프레임 내에 문자열과 같은 비숫자형 데이터가 포함되어 있다면, 이러한 열들은 통계 정보에서 제외됩니다.
df.describe() 함수를 통해 데이터의 전반적인 특성과 분포를 빠르게 파악할 수 있으며, 데이터의 요약 정보를 확인하는 데 유용하게 사용됩니다.
해당 게시글은 ChatGPT의 도움을 받아 작성되었습니다.
'Big Data > DataAnalysis & Manipulate' 카테고리의 다른 글
pandas와 numpy의 var()과 ddof (0) | 2023.08.08 |
---|---|
vectorize, apply, map (0) | 2023.08.08 |
pandas cut() (0) | 2023.08.07 |
Boolean / Fancy indexing (0) | 2023.08.07 |
명시적 / 묵시적 인덱스 접근 (0) | 2023.08.07 |