본문 바로가기

Big Data94

pandas 선택함수 pandas 라이브러리는 데이터 조작 및 분석을 위한 다양한 선택 함수를 제공합니다. 아래에는 pandas의 일부 선택 함수에 대한 소개를 제공하겠습니다. nlargest 및 nsmallest nlargest(n, columns=None): DataFrame 또는 Series에서 상위 n개의 가장 큰 값을 선택합니다. columns 매개변수를 사용하여 특정 열을 기준으로 선택할 수도 있습니다. nsmallest(n, columns=None): DataFrame 또는 Series에서 상위 n개의 가장 작은 값을 선택합니다. columns 매개변수로 특정 열을 기준으로 선택할 수 있습니다. idxmax 및 idxmin idxmax(axis=0, skipna=True): DataFrame 또는 Series에서.. 2023. 8. 11.
DataFrame groupby() groupby() groupby() 함수는 Pandas에서 데이터를 그룹화하고 그룹 단위 연산을 수행하는 데 사용되는 핵심 함수입니다. 아래는 groupby() 함수의 시그니처와 예제를 설명해 드리겠습니다. 시그니처 DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, dropna=True) 매개변수 by: 그룹화를 위한 열 또는 열의 리스트, 또는 그룹화에 사용할 함수. axis: 그룹화 기준이 되는 축 (0: 행, 1: 열). level: MultiIndex를 사용할 경우 그룹화할 레벨. as_index: 그룹화한 열을 인덱스로 사용할지 여.. 2023. 8. 11.
DataFrame 통계 함수 Pandas는 Python에서 데이터 조작과 분석을 위한 강력한 라이브러리입니다. DataFrame 객체는 데이터를 테이블 형태로 다루기에 이용되며, 다양한 통계 함수를 활용하여 데이터를 분석하고 요약할 수 있습니다. 아래에는 몇 가지 일반적인 통계 함수와 그 설명을 제공해 드리겠습니다: mean(): 평균을 계산합니다. 수치 데이터의 평균값을 계산할 때 주로 사용됩니다. median(): 중앙값을 계산합니다. 데이터를 작은 값에서 큰 값으로 정렬한 후 가운데 위치한 값을 반환합니다. 이상치에 민감하지 않은 중심 경향성 측정치입니다. std(): 표준 편차를 계산합니다. 데이터의 변동 정도나 산포도를 나타내며, 값이 작을수록 데이터가 평균 주변에 밀집되어 있다는 의미입니다. var(): 분산을 계산합니다.. 2023. 8. 11.
DataFrame Function 1 pandas는 파이썬 프로그래밍 언어를 위한 데이터 분석 및 조작 라이브러리로 매우 유용하게 사용됩니다. 여러 가지 기능을 수행하는 함수들 중에 'info', 'set_index', 'reset_index', 'query', 'merge' 함수에 대해 설명해드리겠습니다. info() DataFrame의 기본 정보를 제공하는 함수입니다. DataFrame의 열 수, 각 열의 데이터 타입, 비어있지 않은 값의 개수 등을 보여줍니다. 주로 데이터의 전체적인 구조를 파악할 때 유용하게 사용됩니다. 시그니처 DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, null_counts=None) verbose: 출력 정보의 상세도를 제어하는.. 2023. 8. 11.
pandas DataFrame 인덱스 pandas는 Python 프로그래밍 언어를 위한 데이터 조작 및 분석 라이브러리입니다. DataFrame이라는 데이터 구조를 제공하며, 이는 엑셀 스프레드시트와 유사한 형태의 2차원 데이터 테이블입니다. DataFrame의 인덱스는 데이터에 접근하고 조작하기 위한 방법을 제공합니다. pandas DataFrame의 인덱스 종류 정수 인덱스(Integer Index): 기본적으로 DataFrame을 생성하면 0부터 시작하는 정수 인덱스가 할당됩니다. 이는 각 행의 고유한 식별자로 사용될 수 있습니다. 라벨 인덱스(Label Index): 정수 인덱스 대신 데이터를 더 명확하게 식별할 수 있는 라벨(문자열 또는 다른 데이터 타입)을 인덱스로 사용할 수 있습니다. 이는 데이터에 의미 있는 이름을 부여하거나 .. 2023. 8. 10.
Matplotlib Locator Matplotlib에서 Locator는 축의 눈금 위치를 결정하는 데 사용되는 객체입니다. 눈금 위치는 축에 표시되는 값의 위치를 나타냅니다. Locator를 사용하여 눈금의 간격과 위치를 조정하여 그래프의 눈금이나 레이블을 적절하게 배치할 수 있습니다. 주요 Locator 클래스 matplotlib.ticker.AutoLocator: 자동으로 눈금 위치를 결정합니다. matplotlib.ticker.FixedLocator: 미리 정의된 위치에 눈금을 배치합니다. matplotlib.ticker.MultipleLocator: 특정 간격의 배수 위치에 눈금을 배치합니다. matplotlib.ticker.MaxNLocator: 최대 눈금 수를 유지하면서 눈금을 배치합니다. matplotlib.ticker.I.. 2023. 8. 10.
f-통계량 f-통계량은 분산분석(ANOVA, Analysis of Variance)에서 사용되는 중요한 통계적 도구 중 하나입니다. 이 통계량은 두 개 이상의 그룹 간의 평균 차이를 비교하는 데 사용됩니다. 특히, 그룹 간의 분산 차이를 검정하는 데에 유용합니다. f-통계량은 각 그룹 내의 변동과 그룹 간 변동 간의 비율을 계산하여 계산됩니다. 이 비율은 그룹 간의 평균 차이가 우연히 발생할 확률을 나타냅니다. 간단히 말해서, f-통계량은 그룹 간의 분산이 그룹 내의 분산에 비해 얼마나 큰지를 측정합니다. 만약 그룹 간의 분산이 그룹 내의 분산보다 크다면, f-통계량 값은 상대적으로 크게 될 것이며, 이는 그룹 간의 평균 차이가 통계적으로 유의미하다는 것을 나타냅니다. f-통계량을 사용하여 가설 검정을 수행할 때,.. 2023. 8. 10.
카이제곱(Chi-Square) 검정 카이제곱(Chi-Square) 검정은 통계 분석에서 범주형 데이터의 분포를 평가하거나 두 범주형 변수 간의 관계를 조사하는데 사용되는 통계적 방법입니다. 주로 관찰된 데이터와 기대되는(예상되는) 분포 사이의 차이를 평가하며, 이를 통해 변수 간의 독립성 여부나 샘플의 적합도를 검정할 수 있습니다. 카이제곱 검정은 다음과 같은 상황에서 사용됩니다: 독립성 검정 (Test of Independence): 두 범주형 변수 사이에 상관 관계가 있는지 여부를 검정합니다. 예를 들어, 흡연 여부와 폐암 발병 간의 관계, 학력 수준과 투표 행동 간의 관계 등을 조사할 수 있습니다. 적합도 검정 (Goodness-of-Fit Test): 주어진 분포가 기대되는 분포와 일치하는지 여부를 검정합니다. 이는 하나의 범주형 .. 2023. 8. 10.
ANOVA 예제 각 유형의 ANOVA에 대한 예시 일원배치 ANOVA (One-Way ANOVA) 시나리오: 세 가지 다른 공부 방법(A, B, C)을 사용하여 시험을 준비한 학생들의 성적을 비교하려고 합니다. 가설: 적어도 한 그룹의 평균 성적이 다른 그룹과 다르다. 데이터: 각 그룹별로 여러 학생들의 시험 성적이 포함된 데이터셋. 예제 아래는 세 가지 다른 공부 방법(A, B, C)을 사용하여 시험을 준비한 학생들의 성적을 비교하기 위한 일원배치 ANOVA를 수행하는 파이썬 코드 예제입니다. 이를 위해 scipy.stats 라이브러리를 사용합니다. import numpy as np from scipy.stats import f_oneway # 각 공부 방법별 시험 성적 데이터 생성 group_a = np.array(.. 2023. 8. 10.