본문 바로가기

Big Data94

Boolean / Fancy indexing "Boolean indexing"과 "fancy indexing"은 파이썬에서 배열이나 리스트와 같은 시퀀스 자료형에서 원하는 요소를 선택하는 데 사용되는 두 가지 다른 인덱싱 기법입니다. Boolean Indexing (부울 인덱싱) Boolean indexing은 배열의 요소를 선택할 때 조건을 사용하는 방법입니다. 조건을 만족하는 요소만 선택하여 새로운 배열을 생성합니다. 이 방법은 numpy 라이브러리와 배열에 특히 유용하며, numpy 배열의 경우 불린 마스크를 생성하여 조건을 만족하는 요소를 선택할 수 있습니다. 예시: import numpy as np arr = np.array([1, 2, 3, 4, 5]) mask = arr > 2 # 조건을 만족하는 요소를 선택하기 위한 불린 마스크 생성.. 2023. 8. 7.
명시적 / 묵시적 인덱스 접근 pandas는 Python 프로그래밍 언어를 기반으로 한 데이터 분석과 조작을 위한 라이브러리입니다. pandas에서도 명시적 인덱스 접근과 묵시적 인덱스 접근의 개념이 데이터프레임(DataFrame)과 시리즈(Series) 객체를 다룰 때 중요합니다. 명시적 인덱스 접근 (Explicit Index Access) - loc pandas에서는 loc 속성을 사용하여 명시적으로 인덱스를 지정하여 데이터에 접근할 수 있습니다. 이 방식은 인덱스 레이블을 사용하여 데이터에 접근하고 조작합니다. loc를 사용하면 행과 열의 레이블을 지정하여 해당 위치의 데이터에 접근할 수 있습니다. 예를 들어, 다음과 같이 DataFrame에서 loc를 사용하여 특정 행과 열에 접근할 수 있습니다: import pandas a.. 2023. 8. 7.
연속형 / 이산형 변수 연속형 변수와 이산형 변수(범주형 변수)는 통계 및 데이터 분석에서 중요한 개념입니다. 이 두 가지 변수 유형은 데이터의 특성을 나타내는 방식에 차이가 있습니다. 연속형 변수 연속형 변수는 무한한 값을 가질 수 있는 변수입니다. 이러한 변수는 보통 실수 범위 내에서 어떤 값이든 가질 수 있습니다. 예를 들어, 키, 몸무게, 온도와 같은 물리적인 측정치가 연속형 변수에 해당합니다. 연속형 변수의 값은 무한히 많은 가능한 값을 가지며, 이들 값 사이에는 무한히 많은 중간값이 존재할 수 있습니다. 예시: 키가 170.5cm일 수도 있고 170.6cm일 수도 있으며, 그 사이에는 무수히 많은 다른 키 값이 존재합니다. 이산형 변수 (범주형 변수) 이산형 변수 또는 범주형 변수는 한정된 개수의 값을 가지며, 각 .. 2023. 8. 7.
탐색적 데이터 분석(EDA) 탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 데이터를 처음으로 탐색하고 이해하기 위한 과정을 말합니다. 데이터 분석 프로세스에서 가장 초기에 수행되며, 데이터의 특성과 패턴을 파악하고 숨겨진 정보나 인사이트를 발견하는 데 도움을 줍니다. EDA는 데이터 과학자, 분석가 및 연구자들이 데이터를 다루는 데 중요한 역할을 합니다. EDA의 목표는 다음과 같습니다. 데이터의 이해: 데이터가 어떤 형태로 구성되어 있는지 이해합니다. 변수들 간의 관계와 데이터의 분포를 파악하여 데이터에 대한 기본적인 직관을 얻습니다. 데이터 품질 검증: 데이터에 누락된 값, 이상치, 오류 등이 있는지 확인하고 처리합니다. 이상치나 오류가 있는 경우 이를 처리하여 분석 결과에 영향을 미치지 않도록 .. 2023. 8. 7.
불편 표준편차 & 불편 분산 불편 표준편차와 불편 분산은 통계량의 특정 추정값을 계산할 때, 표본 크기에 대한 보정을 고려한 개념입니다. 이를 통해 표본을 사용하여 모집단의 모수를 추정할 때 편향성을 줄이는 데 도움을 줍니다. 1. 불편 표준편차 (Unbiased Standard Deviation) 불편 표준편차는 표본 데이터를 사용하여 모집단의 표준편차를 추정할 때, 표본 크기에 대한 보정을 고려한 값입니다. 표본 표준편차를 계산할 때, 편향성을 줄이기 위해 표본 크기에 대한 보정을 적용합니다. 이로써 표본 표준편차가 모집단 표준편차를 더 정확하게 추정할 수 있게 됩니다. 2. 불편 분산 (Unbiased Variance) 불편 분산은 표본 데이터를 사용하여 모집단의 분산을 추정할 때, 표본 크기에 대한 보정을 고려한 값입니다. .. 2023. 8. 7.
모수와 통계량 모수(Parameter)와 통계량(Statistic)은 통계학에서 중요한 개념으로, 데이터를 요약하고 분석하는 데 사용됩니다. 이 두 용어는 모집단과 표본 간의 관계를 나타냅니다. 모수(Parameter) 모수는 모집단(population)의 특성을 나타내는 고정된 수치입니다. 모집단은 연구하고자 하는 전체 집단을 의미하며, 모수는 이 모집단의 특성을 정확하게 나타내는 값입니다. 하지만 실제로는 대개 모집단 전체를 조사하기 어렵기 때문에 모수를 정확하게 알기는 어렵습니다. 예를 들어, 모집단의 평균, 분산, 비율 등이 모수에 해당합니다. 통계량(Statistic) 통계량은 표본(sample)에서 얻은 값을 기반으로 모집단의 모수를 추정하는 데 사용되는 값입니다. 표본은 모집단의 일부분으로, 통계량은 표본.. 2023. 8. 7.
기술통계와 추측통계 기술통계(Descriptive Statistics)와 추측통계(Inferential Statistics)는 통계학의 두 가지 주요 분야입니다. 각각 데이터의 특성을 요약하고 설명하는 역할과 미래의 불확실성을 예측하거나 결론을 도출하는 역할을 합니다. 1. 기술통계(Descriptive Statistics) 기술통계는 주어진 데이터 집합의 특성을 요약하고 설명하는 통계적 방법을 의미합니다. 주어진 데이터의 중심 경향(평균, 중앙값, 최빈값 등)과 분산(표준편차, 범위 등)을 파악하여 데이터의 전반적인 특성을 이해하는 데 사용됩니다. 기술통계는 데이터를 직관적으로 이해하고 요약함으로써 데이터의 기본적인 패턴과 특징을 파악하는 데 도움을 줍니다. 주요 기술통계 개념 평균(Mean): 모든 값의 합을 개수로 나.. 2023. 8. 7.
DataFrame Indexer 판다스(DataFrame)에서 데이터에 접근하고 조작하는 데 사용되는 인덱서(indexer)에 대해 설명해드리겠습니다. 인덱서(Indexer) 인덱서는 데이터프레임에서 행과 열에 접근하기 위한 메서드(method)를 의미합니다. loc와 iloc이 가장 널리 사용되는 인덱서인데, loc은 레이블 기반 인덱싱을 수행하고 iloc은 위치 기반 인덱싱을 수행합니다. 이 외에도 at, iat과 같은 인덱서도 있습니다. iloc iloc은 데이터프레임에서 위치 기반 인덱싱을 수행하는 데 사용되는 속성(attribute)입니다. 행과 열의 위치를 사용하여 데이터에 접근하고 조작하는 데에 활용됩니다. iloc은 정수 인덱스를 기반으로 하며, 행과 열의 인덱스를 숫자로 지정하여 데이터에 접근할 수 있습니다. impor.. 2023. 8. 4.
Pandas DataFrame 구조 pandas는 Python 프로그래밍 언어를 위한 데이터 분석 및 조작 라이브러리입니다. pandas는 크게 Series, DataFrame 및 Index라는 세 가지 주요 데이터 구조를 제공합니다. 각각의 역할과 특징을 설명해보겠습니다. Series Series는 1차원 데이터 배열로, 인덱싱된 데이터의 순서를 가지고 있습니다. Series는 Python의 리스트나 배열과 유사하지만, 추가적으로 인덱스를 사용하여 각 데이터 포인트에 접근할 수 있습니다. 예를 들어, 날짜와 온도 데이터를 저장할 수 있는데, 날짜가 인덱스가 되고 해당 날짜의 온도가 값으로 저장될 수 있습니다. 시리즈는 기본적으로 인덱스와 데이터 값을 가지는 1차원 데이터 구조입니다. 데이터프레임의 열은 시리즈로 구성되며, 각 시리즈는 해.. 2023. 8. 4.