본문 바로가기

전체 글226

[Pandas] datetime 프로퍼티 Pandas의 Series 객체에는 dt 프로퍼티가 있습니다. 이 프로퍼티는 날짜와 시간과 관련된 작업을 수행하는 데 유용한 여러 유용한 기능 및 속성을 제공합니다. dt는 "datetime"의 약자로, Series 내부의 데이터가 날짜 및 시간 관련 정보를 포함하는 경우에 사용됩니다. dt 프로퍼티의 주요 기능과 속성은 다음과 같습니다. 날짜 및 시간 속성 접근 dt를 사용하여 Series 내의 각 요소에 대한 날짜 및 시간 관련 속성에 쉽게 접근할 수 있습니다. 예를 들어, series.dt.year는 Series 내의 날짜에서 연도를 추출하며, series.dt.month는 월을 추출합니다. 날짜 및 시간 속성 (Attributes) dt.year: 각 요소에서 연도를 추출합니다. dt.month:.. 2023. 9. 8.
중요한 피쳐 탐색(중요도) 사이킷런에서 학습한 모델에서 중요한 피처를 나타내는 변수는 일반적으로 다음과 같은 방법을 사용하여 얻을 수 있습니다: 피처 중요도 확인 RandomForestClassifier, RandomForestRegressor, GradientBoostingClassifier, GradientBoostingRegressor 등의 트리 기반 모델을 사용한 경우, feature_importances_ 속성을 사용하여 각 피처의 중요도를 확인할 수 있습니다. 피처 중요도 확인 방법 (Tree-based 모델) 핵심 아이디어: 트리 기반 모델(예: 랜덤 포레스트, 그래디언트 부스팅 트리)은 데이터를 분할하는 결정 트리를 사용합니다. 각 피처는 어떤 노드에서 얼마나 많이 사용되었는지에 따라 중요도를 측정합니다. 과정 모델.. 2023. 9. 7.
[Pandas] interpolate() Pandas 라이브러리에서는 DataFrame에 데이터 보간을 수행하는 다양한 interpolate 함수가 제공됩니다. DataFrame은 테이블 형태의 데이터를 다룰 때 자주 사용되며, interpolate 함수는 주로 누락된 데이터를 채우거나 부드러운 곡선을 생성하는 데 사용됩니다. interpolate 함수의 시그니처와 사용 방법에 대해 설명하겠습니다. Pandas DataFrame에서 사용 가능한 interpolate 함수의 일반적인 시그니처는 다음과 같습니다. 시그니처 DataFrame.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction='forward', limit_area=None, downcast=N.. 2023. 9. 7.
[statsmodels] variance_inflation_factor() - VIF statsmodels.stats.outliers_influence.variance_inflation_factor 함수는 다중 선형 회귀 분석에서 다중공선성(Multicollinearity)을 평가하는 데 사용되는 함수입니다. 이 함수는 statsmodels 라이브러리의 statsmodels.stats.outliers_influence 모듈에 포함되어 있습니다. 시그니처 시그니처(함수의 형태)는 다음과 같습니다. variance_inflation_factor(exog, exog_idx) exog: 설명 변수(explanatory variables 또는 독립 변수)로 구성된 데이터 프레임이나 배열입니다. 이 변수들 간의 다중공선성을 평가하려는 데이터 세트입니다. exog_idx: 평가하려는 설명 변수의 인덱.. 2023. 9. 7.
[patsy] dmatrices patsy 모듈의 dmatrices 함수는 데이터를 통계 모델링을 위한 디자인 행렬(design matrix)로 변환하는 데 사용되는 함수입니다. 이 함수는 주로 회귀 분석 및 통계 모델링을 수행할 때 독립 변수와 종속 변수를 준비하기 위해 활용됩니다. 시그니처 dmatrices 함수의 시그니처는 다음과 같습니다: patsy.dmatrices(formula_like, data, eval_env=0, NA_action='drop', return_type='matrix') formula_like: 종속 변수와 독립 변수의 관계를 지정하는 문자열 형식의 공식(formula)입니다. 이 공식은 R의 모델링 언어와 유사한 형식을 가지며 종속 변수와 독립 변수 간의 관계를 정의합니다. data: 데이터 프레임 또는.. 2023. 9. 7.
[NumPy] nditer() np.nditer 함수는 NumPy 라이브러리에서 다차원 배열을 반복하는 데 사용되는 강력한 도구입니다. 이 함수를 사용하면 배열의 각 요소를 순회하고 조작할 수 있으며, 다차원 배열을 효과적으로 다룰 수 있습니다. np.nditer 함수의 주요 시그니처는 다음과 같습니다 numpy.nditer(arrays, flags=['readwrite'], op_flags=None, op_dtypes=None, order='K', casting='safe', op_axes=None, itershape=None, buffersize=0) 시그니처 arrays (필수 매개변수): 반복하려는 배열이나 배열들의 리스트를 지정합니다. 여러 배열을 지정할 수 있으며, 이들은 동시에 반복됩니다. flags (옵션): 반복 동작.. 2023. 9. 7.
[scikit-plot] plot_confusion_matrix skplt.metrics.plot_confusion_matrix는 scikit-learn(사이킷런)의 확장 패키지인 scikit-plot(skplt)을 사용하여 분류 모델의 혼동 행렬(confusion matrix)을 시각화하는 함수입니다. 혼동 행렬은 모델의 성능을 평가하는 데 사용되며, 실제 클래스와 모델이 예측한 클래스 간의 관계를 보여줍니다. 이 함수의 시그니처는 다음과 같습니다 skplt.metrics.plot_confusion_matrix(y_true, y_pred, labels=None, title='', normalize=False, figsize=(8, 6), cmap=None) y_true: 실제 타겟 클래스(레이블)의 배열 또는 리스트. y_pred: 모델의 예측 클래스(레이블)의 배.. 2023. 9. 7.
모델별 적합한 상황과 장단점 각 모델의 적합한 상황과 장단점에 대해 설명해드리겠습니다. 선형 모델 (Linear Models) 적합한 상황 데이터가 선형적인 관계를 가질 때. 고차원 데이터셋에서 잘 작동함. 장점 계산 효율적이고 간단한 모델. 해석이 쉽고 설명력이 좋음. 단점 비선형 데이터에 대해 잘 작동하지 않음. 고차원 데이터에서 과적합 가능성이 있음. 로지스틱 회귀 (Logistic Regression) 적합한 상황 이진 분류 문제에서 효과적. 확률 기반 예측이 필요한 경우. 장점 간단하고 해석이 쉽다. 과적합을 제어할 수 있는 정규화 파라미터 사용 가능. 단점 비선형 관계를 모델링하기 어렵다. 고차원 피처 공간에서 성능이 낮을 수 있다. 의사결정트리 (Decision Trees) 적합한 상황 비선형 관계를 모델링할 때. 데이.. 2023. 9. 4.
D드라이브 Conda환경 생성 conda config --append "conda config --append" 명령어는 Conda 패키지 관리자를 사용하여 Conda 환경 및 구성 파일에 새로운 설정을 추가하는 데 사용되는 명령어입니다. 이 명령어를 사용하면 기존의 설정을 유지하면서 새로운 설정을 추가할 수 있습니다. 여기에 명령어의 각 부분에 대한 설명이 있습니다: "conda config": Conda 패키지 관리자의 구성(config)을 조작하려는 명령어입니다. "--append": 이 플래그는 기존 설정을 변경하지 않고 새로운 설정을 추가하도록 Conda에 지시하는 부분입니다. 다시 말해, 새 설정을 추가하면서 기존 설정을 변경하지 않습니다. 예를 들어, Conda 환경을 만들거나 관리하는 동안 어떤 설정을 추가하려고 할 때.. 2023. 9. 3.