본문 바로가기

Big Data/DataAnalysis & Manipulate33

[Pandas] 데이터프레임의 요소 간 비교 및 조작 판다스(Pandas)는 파이썬에서 데이터 조작과 분석을 위한 라이브러리로 많이 사용됩니다. 데이터프레임(DataFrame)은 판다스에서 가장 중요한 데이터 구조 중 하나로, 표 형식의 데이터를 다루는데 사용됩니다. 판다스는 데이터프레임을 다루는 데 도움이 되는 다양한 비교 함수를 제공합니다. 이러한 함수들은 데이터프레임의 요소 간 비교 및 조작을 수행하는데 사용됩니다. 데이터프레임 비교 함수 eq() 데이터프레임과 다른 데이터프레임 또는 스칼라와의 동등성(같음) 비교를 수행합니다. 두 데이터프레임 또는 데이터프레임과 스칼라를 비교하고, 같은 값이면 True를 반환하고, 다른 값이면 False를 반환합니다. result = df1.eq(df2) # df1과 df2를 요소별로 비교 ne() 데이터프레임과 다.. 2023. 11. 6.
피어슨 상관계수와 스피어만 상관계수 피어슨 상관계수(Pearson Correlation Coefficient) 피어슨 상관계수는 두 변수 간의 선형 관계를 측정합니다. 주로 연속형 변수 간의 상관 관계를 계산하는 데 사용됩니다. 공식은 다음과 같습니다: 값의 범위: -1에서 1 사이의 값을 가지며, 다음과 같이 해석됩니다. 1에 가까우면, 강한 양의 선형 상관관계가 있음을 나타냅니다. -1에 가까우면, 강한 음의 선형 상관관계가 있음을 나타냅니다. 0에 가까우면, 선형 상관관계가 거의 없거나 매우 약할 가능성이 있습니다. 가정: 피어슨 상관계수를 사용하기 위해서는 두 변수가 정규분포를 따르고 선형성을 보이는 것이 중요합니다. 이러한 가정이 충족되지 않을 경우 해석이 왜곡될 수 있습니다. 스피어만 상관계수(Spearman Correlatio.. 2023. 9. 17.
[Pandas] datetime 프로퍼티 Pandas의 Series 객체에는 dt 프로퍼티가 있습니다. 이 프로퍼티는 날짜와 시간과 관련된 작업을 수행하는 데 유용한 여러 유용한 기능 및 속성을 제공합니다. dt는 "datetime"의 약자로, Series 내부의 데이터가 날짜 및 시간 관련 정보를 포함하는 경우에 사용됩니다. dt 프로퍼티의 주요 기능과 속성은 다음과 같습니다. 날짜 및 시간 속성 접근 dt를 사용하여 Series 내의 각 요소에 대한 날짜 및 시간 관련 속성에 쉽게 접근할 수 있습니다. 예를 들어, series.dt.year는 Series 내의 날짜에서 연도를 추출하며, series.dt.month는 월을 추출합니다. 날짜 및 시간 속성 (Attributes) dt.year: 각 요소에서 연도를 추출합니다. dt.month:.. 2023. 9. 8.
[pandas] columns.difference columns.difference는 pandas 라이브러리에서 데이터프레임의 열을 비교하여 차이점을 반환하는 메서드입니다. 이를 사용하여 특정 열을 인덱싱하는 방법은 다음과 같습니다. 먼저, columns.difference 메서드를 사용하여 원하는 열을 제외한 나머지 열들의 이름을 가져옵니다. 그런 다음 이를 사용하여 데이터프레임의 열을 선택합니다. 아래는 이 과정을 단계별로 설명한 예시입니다. 가정하자면 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd data = { 'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9] } df = pd.DataFrame(data) 이제 columns.difference를 사용하여 'B' 열을 제외.. 2023. 8. 28.
데이터 스케일러(StandardScaler, MinMaxScaler) StandardScaler와 MinMaxScaler는 데이터 전처리 기술로, 머신러닝 모델을 훈련하기 전에 데이터의 스케일을 조정하는 데 사용됩니다. 이를 통해 모델이 데이터의 특성을 더 정확하게 학습할 수 있도록 도와줍니다. StandardScaler StandardScaler는 데이터의 평균을 0으로, 표준편차를 1로 만들어줍니다. 이는 데이터를 표준 정규분포(평균 0, 표준편차 1)로 변환하는 것과 비슷한 효과를 줍니다. 이 방법은 주로 선형 회귀, 로지스틱 회귀, SVM 등과 같은 모델에서 사용됩니다. from sklearn.preprocessing import StandardScaler # 예시 데이터 data = [[1.0, 2.0], [2.0, 3.0], [3.0, 4.0], [4.0, 5... 2023. 8. 25.
Apriori 알고리즘 Apriori 알고리즘 Apriori는 연관규칙 분석을 위한 클래식한 알고리즘으로, 데이터 내에서 아이템 간의 연관성을 찾아내는 데 사용됩니다. 이 알고리즘은 빈발 아이템 집합을 탐색하여 연관규칙을 생성하는 데 특히 유용합니다. Apriori 알고리즘의 핵심 개념은 "아프라이어리 속성 (Apriori Property)"입니다. 이 속성에 따라서 어떤 아이템 집합이 빈발(frequent)하다면, 그 집합의 모든 부분 집합도 빈발하다는 것입니다. 이 아프라이어리 속성을 활용하여 알고리즘이 아이템 집합을 증가시키면서 연관규칙을 생성합니다. Apriori 알고리즘의 동작 과정은 다음과 같습니다: 단일 아이템 집합의 생성: 먼저, 각각의 아이템을 개별 아이템 집합으로 간주합니다. 1-아이템 집합의 지지도 계산: .. 2023. 8. 16.
연관 규칙 분석 연관규칙 분석 연관규칙 분석은 데이터 내에서 아이템 간의 관계를 찾아내는 데이터 마이닝 기법 중 하나입니다. 이를 통해 어떤 아이템이 다른 아이템과 함께 얼마나 자주 발생하는지, 그리고 이 아이템들 간의 규칙이 얼마나 신뢰할 수 있는지를 평가할 수 있습니다. 이때 사용되는 주요 지표로는 "지지도 (Support)"와 "신뢰도 (Confidence)"가 있습니다. 지지도 (Support) 지지도는 특정 아이템 또는 아이템 집합이 전체 데이터 집합에서 얼마나 자주 나타나는지를 나타내는 지표입니다. 지지도는 다음과 같은 식으로 계산됩니다: 지지도(A -> B) = (A와 B가 동시에 나타나는 거래 수) / (전체 거래 수) 여기서 A는 규칙의 선행절 (antecedent)이며, B는 규칙의 후행절 (conse.. 2023. 8. 16.
pd.pivot_table() pd.pivot_table() 함수는 Pandas 라이브러리에서 제공하는 데이터 조작 도구 중 하나로, 데이터프레임의 값을 재구성하고 집계하는 데 사용됩니다. 이 함수를 사용하여 엑셀의 피벗 테이블과 비슷한 작업을 수행할 수 있습니다. 아래는 pd.pivot_table() 함수의 시그니처와 각 매개변수의 역할에 대한 설명입니다: 시그니처 pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All', dropna=True, observed=False) data: 필수 매개변수로, 피벗 테이블을 생성할 데이터프레임입니다. values: 집계할 .. 2023. 8. 16.
pandas 결측값 처리 pandas는 데이터 분석과 처리를 위한 파이썬 라이브러리로, 데이터 결측값을 다루는 다양한 방법을 제공합니다. 아래에서는 pandas를 사용하여 데이터 결측값을 처리하는 몇 가지 방법을 소개하겠습니다. 결측값 확인하기 먼저 데이터프레임에서 결측값이 어떤 열에 있는지 확인합니다. import pandas as pd # 데이터프레임 생성 data = {'A': [1, 2, None, 4], 'B': [5, None, 7, 8]} df = pd.DataFrame(data) # 결측값 확인 print(df.isnull()) print() # 결측값 카운팅 print(df.isnull().sum()) 결측값 삭제하기 결측값이 있는 행이나 열을 삭제할 수 있습니다. # 결측값이 있는 행 삭제 df_cleaned_.. 2023. 8. 15.