본문 바로가기
Big Data/DataAnalysis & Manipulate

Pandas DataFrame 구조

by Wikinist 2023. 8. 4.

pandas는 Python 프로그래밍 언어를 위한 데이터 분석 및 조작 라이브러리입니다. pandas는 크게 Series, DataFrame 및 Index라는 세 가지 주요 데이터 구조를 제공합니다. 각각의 역할과 특징을 설명해보겠습니다.

Series

Series는 1차원 데이터 배열로, 인덱싱된 데이터의 순서를 가지고 있습니다. Series는 Python의 리스트나 배열과 유사하지만, 추가적으로 인덱스를 사용하여 각 데이터 포인트에 접근할 수 있습니다. 예를 들어, 날짜와 온도 데이터를 저장할 수 있는데, 날짜가 인덱스가 되고 해당 날짜의 온도가 값으로 저장될 수 있습니다.

시리즈는 기본적으로 인덱스와 데이터 값을 가지는 1차원 데이터 구조입니다. 데이터프레임의 열은 시리즈로 구성되며, 각 시리즈는 해당 열의 데이터 값과 함께 그 데이터 값들에 연결된 인덱스 정보를 가집니다. 또한 시리즈는 데이터프레임의 각 열에 해당하는 이름(컬럼 이름)도 가지고 있습니다.

따라서 데이터프레임의 시리즈는 값, 인덱스, 컬럼 정보를 모두 포함하고 있는 것이 맞습니다. 예를 들어, df.iloc[0, :]로 추출한 시리즈는 해당 행의 데이터 값과 그 데이터 값들에 연결된 인덱스, 그리고 데이터프레임의 열(컬럼) 정보도 포함하고 있습니다.

import pandas as pd

temperatures = pd.Series([25.5, 28.3, 23.8, 21.5], index=['2023-08-01', '2023-08-02', '2023-08-03', '2023-08-04'])

DataFrame

DataFrame은 2차원 데이터 구조로, 여러 개의 Series를 모아 행과 열로 이루어진 테이블 형태의 데이터를 나타냅니다. 엑셀 스프레드시트나 SQL 데이터베이스의 테이블과 유사한 구조를 가지며, 데이터를 조작하고 분석하는 데에 매우 유용합니다. DataFrame은 여러 유형의 데이터를 저장하고 다룰 수 있으며, 각 열은 Series로 구성됩니다.

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 22],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

Index

Index는 Series나 DataFrame의 레이블된 축입니다. 데이터의 고유한 식별자를 나타내며, 인덱싱 및 데이터의 선택 작업에 사용됩니다. Index는 변경 불가능한 객체이며, 여러 열에 걸쳐 공유되는 구조로 데이터를 효율적으로 관리합니다.

index = pd.Index(['2023-08-01', '2023-08-02', '2023-08-03', '2023-08-04'], name='Date')
temperatures = pd.Series([25.5, 28.3, 23.8, 21.5], index=index)

이렇게 pandas의 Series, DataFrame 및 Index를 사용하여 데이터를 구조화하고 조작할 수 있습니다. 이들을 적절하게 활용하면 데이터 분석과 조작 작업을 더욱 효율적으로 수행할 수 있습니다.

해당 게시글은 ChatGPT의 도움을 받아 작성되었습니다.

'Big Data > DataAnalysis & Manipulate' 카테고리의 다른 글

pandas cut()  (0) 2023.08.07
Boolean / Fancy indexing  (0) 2023.08.07
명시적 / 묵시적 인덱스 접근  (0) 2023.08.07
DataFrame Indexer  (0) 2023.08.04
선형대수와 numpy 비교(scalar, vector...)  (0) 2023.08.04