본문 바로가기

전체 글226

연관 규칙 분석 연관규칙 분석 연관규칙 분석은 데이터 내에서 아이템 간의 관계를 찾아내는 데이터 마이닝 기법 중 하나입니다. 이를 통해 어떤 아이템이 다른 아이템과 함께 얼마나 자주 발생하는지, 그리고 이 아이템들 간의 규칙이 얼마나 신뢰할 수 있는지를 평가할 수 있습니다. 이때 사용되는 주요 지표로는 "지지도 (Support)"와 "신뢰도 (Confidence)"가 있습니다. 지지도 (Support) 지지도는 특정 아이템 또는 아이템 집합이 전체 데이터 집합에서 얼마나 자주 나타나는지를 나타내는 지표입니다. 지지도는 다음과 같은 식으로 계산됩니다: 지지도(A -> B) = (A와 B가 동시에 나타나는 거래 수) / (전체 거래 수) 여기서 A는 규칙의 선행절 (antecedent)이며, B는 규칙의 후행절 (conse.. 2023. 8. 16.
seaborn barplot() ChatGPT 기준으로 가지고 있는 정보까지 기반하여, Seaborn 라이브러리의 barplot 함수에 대한 시그니처와 간단한 설명을 제공해드리겠습니다. 하지만 혹시 Seaborn의 새로운 버전이 나와서 변경된 사항이 있다면, 최신 문서를 참고하시는 것이 좋습니다. Seaborn의 barplot 함수는 범주형 데이터의 막대 그래프를 그리기 위해 사용되는 함수입니다. 주로 범주형 변수의 분포를 시각화하거나, 다른 변수에 대한 그룹별 비교를 표현할 때 사용됩니다. barplot 함수의 시그니처는 다음과 같습니다 seaborn.barplot(x=None, y=None, data=None, order=None, hue=None, orient=None, color=None, palette=None, saturat.. 2023. 8. 16.
pd.pivot_table() pd.pivot_table() 함수는 Pandas 라이브러리에서 제공하는 데이터 조작 도구 중 하나로, 데이터프레임의 값을 재구성하고 집계하는 데 사용됩니다. 이 함수를 사용하여 엑셀의 피벗 테이블과 비슷한 작업을 수행할 수 있습니다. 아래는 pd.pivot_table() 함수의 시그니처와 각 매개변수의 역할에 대한 설명입니다: 시그니처 pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All', dropna=True, observed=False) data: 필수 매개변수로, 피벗 테이블을 생성할 데이터프레임입니다. values: 집계할 .. 2023. 8. 16.
데이터 분석 관련 책 1. 데이터 분석 1. 데이터 과학자의 일 저자 : 박준석 출판사 : 휴머니스트 더보기 1장 통계학, 가장 오래된 데이터 과학 2장 인공지능, 머신러닝, 딥러닝의 차이는 무엇일까? 3장 핀테크와 테크핀이 경쟁하는 시대의 금융 4장 게임, 가장 풍부한 데이터가 뛰노는 세상 5장 야구에서 출루율이 중요해진 데이터 과학적 이유 6장 데이터 과학으로 서비스를 보호하는 방법 7장 병원, 의학 정보를 다루는 데이터 센터가 되다 8장 사람을 더 똑똑하게 만드는 인공지능 교육 9장 예비 데이터 과학자를 위한 취업 분투기 10장 머신러닝 서비스에 엔지니어가 필요한 이유 11장 공백 속에 숨은 놀라운 이야기, 결측데이터 2. 데이터 과학자 되는 법 저자 : 재클린 놀리스,에밀리 로빈슨 (지은이) 옮긴이 : 이창화 출판사 .. 2023. 8. 15.
pandas 결측값 처리 pandas는 데이터 분석과 처리를 위한 파이썬 라이브러리로, 데이터 결측값을 다루는 다양한 방법을 제공합니다. 아래에서는 pandas를 사용하여 데이터 결측값을 처리하는 몇 가지 방법을 소개하겠습니다. 결측값 확인하기 먼저 데이터프레임에서 결측값이 어떤 열에 있는지 확인합니다. import pandas as pd # 데이터프레임 생성 data = {'A': [1, 2, None, 4], 'B': [5, None, 7, 8]} df = pd.DataFrame(data) # 결측값 확인 print(df.isnull()) print() # 결측값 카운팅 print(df.isnull().sum()) 결측값 삭제하기 결측값이 있는 행이나 열을 삭제할 수 있습니다. # 결측값이 있는 행 삭제 df_cleaned_.. 2023. 8. 15.
SELECT -> INSERT MySQL 데이터베이스에서 INSERT INTO ... ON DUPLICATE KEY UPDATE 문을 사용하는 방법에 대해 설명합니다. 이러한 문법은 새로운 데이터를 삽입하려고 할 때 이미 기존에 존재하는 행과 충돌이 발생할 경우 업데이트를 수행하는 데 유용합니다. 문법 및 기능 설명 아래는 주어진 source_table에서 데이터를 선택하여 target_table에 삽입하거나 업데이트하는 SQL 쿼리의 구문과 기능에 대한 설명입니다. INSERT INTO target_table (id, value1, value2, value3) SELECT id, value1, value2, value3 FROM source_table AS source ON DUPLICATE KEY UPDATE value1 = so.. 2023. 8. 15.
Pandas에서 결측값을 다루기 위한 여러 함수 Pandas는 Python에서 데이터 조작 및 분석을 위한 강력한 라이브러리입니다. 결측값(missing values)은 데이터셋에서 누락된 값이나 비어있는 값을 의미합니다. Pandas는 결측값을 다루기 위한 여러 함수와 메서드를 제공합니다. 아래에는 몇 가지 주요한 결측값 관련 함수들과 그 설명을 제공합니다. isna() / isnull() DataFrame.isna(), Series.isna(), DataFrame.isnull(), Series.isnull() 각 요소가 결측값인지를 불리언 형태로 반환합니다. True는 결측값을 나타내고, False는 결측값이 아님을 나타냅니다. notna() / notnull() DataFrame.notna(), Series.notna(), DataFrame.no.. 2023. 8. 11.
DataFrame 열 위치 변경 Pandas의 DataFrame에서 컬럼의 위치를 변경하려면 insert() 함수를 사용할 수 있습니다. 이 함수를 사용하여 새로운 컬럼을 원하는 위치에 삽입할 수 있습니다. insert() 함수는 다음과 같은 구문을 가지고 있습니다. DataFrame.insert(loc, column, value, allow_duplicates=False) 여기서 각 매개변수의 역할은 다음과 같습니다: loc: 컬럼을 삽입할 위치를 나타내는 정수 값입니다. 컬럼은 0부터 시작하는 인덱스를 가지며, 마지막 컬럼 바로 다음에 삽입될 위치의 인덱스를 지정합니다. column: 삽입할 컬럼의 이름입니다. value: 삽입할 컬럼의 데이터를 나타내는 Series, 배열, 리스트 등의 값입니다. allow_duplicates: .. 2023. 8. 11.
explode()와 melt() 그리고 Wide->Long 포맷 변환 explode 함수 explode 함수는 리스트 형식의 데이터가 포함된 컬럼을 "폭발"시켜(long format으로 변환) 각 요소를 별도의 행으로 분리합니다. 시그니처 DataFrame.explode(column: str) -> DataFrame column: 폭발시킬 컬럼의 이름을 지정합니다. 예제 import pandas as pd data = {'id': [1, 2, 3], 'items': [['item1', 'item2'], ['item3', 'item4'], ['item5', 'item6', 'item7']]} df = pd.DataFrame(data) df_long = df.explode('items') melt 함수 melt 함수는 여러 컬럼을 long format으로 변환하여 열(colu.. 2023. 8. 11.