본문 바로가기

AI/Machine-Learning43

[NumPy] choose() np.choose 함수는 NumPy 라이브러리에서 제공하는 함수 중 하나로, 배열에서 선택하고자 하는 인덱스 배열을 기반으로 새로운 배열을 생성하는데 사용됩니다. 주로 다른 배열의 값을 선택하여 새로운 배열을 생성하는 데에 활용됩니다. 함수의 일반적인 형식은 다음과 같습니다. numpy.choose(choices, choices_list) choices: 선택하려는 인덱스를 담고 있는 배열입니다. choices_list: 선택 옵션(배열 또는 값)을 담고 있는 리스트입니다. 이 리스트의 각 요소는 선택 가능한 값 또는 배열을 나타냅니다. choices 배열의 각 요소는 choices_list에서 해당 인덱스에 해당하는 값을 선택하게 됩니다. choices 배열의 모든 요소에 대해 선택 작업이 수행되어 새.. 2023. 9. 8.
계층적 클러스터링 함수 from scipy.cluster.hierarchy import linkage # linkage() : 응집형 계층적 클러스터링 수행 from scipy.cluster.hierarchy import dendrogram # dendrogram() : 클러스터의 계층 구조를 표현 from scipy.cluster.hierarchy import fcluster from sklearn.cluster import AgglomerativeClustering 위의 코드에서 사용되는 함수들은 모두 계층적 클러스터링과 관련된 작업을 수행하는 데 사용되는 함수들입니다. 계층적 클러스터링은 데이터 포인트를 계층적으로 그룹화하여 클러스터 간의 유사성을 표현하는 방법 중 하나입니다. 이러한 함수들은 계층적 클러스터링을 수행하고.. 2023. 9. 8.
계층적 군집화(Hierarchical Clustering) 계층적 군집화(Hierarchical Clustering)는 데이터 포인트를 계층적으로 그룹화하는 클러스터링 기술 중 하나입니다. 이 방법은 데이터를 트리 구조로 나타냅니다. 즉, 작은 군집이 큰 군집을 포함하는 계층 구조를 형성합니다. Hierarchical Clustering은 데이터 간의 유사성을 기반으로 군집을 형성하며, 이러한 유사성은 거리나 연결성을 기준으로 측정됩니다. Hierarchical Clustering은 크게 두 가지 방법으로 수행됩니다. 병합 군집화 (Agglomerative Clustering) 이 방법은 각 데이터 포인트를 개별 군집으로 시작하고, 각 단계에서 가장 가까운 군집을 병합하여 더 큰 군집을 형성합니다. 이 과정은 모든 데이터 포인트가 하나의 큰 군집으로 합쳐질 때까.. 2023. 9. 8.
[NumPy] newaxis np.newaxis는 NumPy에서 배열의 차원을 추가하는데 사용되는 특별한 인덱싱 표기입니다. 이를 사용하면 기존 배열의 차원을 변경하거나 추가 차원을 만들 수 있습니다. 예를 통해 설명하겠습니다. 가정해 봅시다, 우리에게 다음과 같은 1차원 NumPy 배열 X와 스칼라 c0가 있다고 가정합시다. import numpy as np X = np.array([1, 2, 3, 4, 5]) c0 = 2 이제 우리는 np.linalg.norm(X - c0, axis=1)와 [np.newaxis]를 함께 사용하여 배열의 차원을 변경할 수 있습니다. 그러나 axis=1은 1차원 배열에서는 의미가 없으므로, 이 예제에서는 이를 무시할 것입니다. result = np.linalg.norm(X - c0, axis=1)[.. 2023. 9. 8.
중요한 피쳐 탐색(중요도) 사이킷런에서 학습한 모델에서 중요한 피처를 나타내는 변수는 일반적으로 다음과 같은 방법을 사용하여 얻을 수 있습니다: 피처 중요도 확인 RandomForestClassifier, RandomForestRegressor, GradientBoostingClassifier, GradientBoostingRegressor 등의 트리 기반 모델을 사용한 경우, feature_importances_ 속성을 사용하여 각 피처의 중요도를 확인할 수 있습니다. 피처 중요도 확인 방법 (Tree-based 모델) 핵심 아이디어: 트리 기반 모델(예: 랜덤 포레스트, 그래디언트 부스팅 트리)은 데이터를 분할하는 결정 트리를 사용합니다. 각 피처는 어떤 노드에서 얼마나 많이 사용되었는지에 따라 중요도를 측정합니다. 과정 모델.. 2023. 9. 7.
[Pandas] interpolate() Pandas 라이브러리에서는 DataFrame에 데이터 보간을 수행하는 다양한 interpolate 함수가 제공됩니다. DataFrame은 테이블 형태의 데이터를 다룰 때 자주 사용되며, interpolate 함수는 주로 누락된 데이터를 채우거나 부드러운 곡선을 생성하는 데 사용됩니다. interpolate 함수의 시그니처와 사용 방법에 대해 설명하겠습니다. Pandas DataFrame에서 사용 가능한 interpolate 함수의 일반적인 시그니처는 다음과 같습니다. 시그니처 DataFrame.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction='forward', limit_area=None, downcast=N.. 2023. 9. 7.
[statsmodels] variance_inflation_factor() - VIF statsmodels.stats.outliers_influence.variance_inflation_factor 함수는 다중 선형 회귀 분석에서 다중공선성(Multicollinearity)을 평가하는 데 사용되는 함수입니다. 이 함수는 statsmodels 라이브러리의 statsmodels.stats.outliers_influence 모듈에 포함되어 있습니다. 시그니처 시그니처(함수의 형태)는 다음과 같습니다. variance_inflation_factor(exog, exog_idx) exog: 설명 변수(explanatory variables 또는 독립 변수)로 구성된 데이터 프레임이나 배열입니다. 이 변수들 간의 다중공선성을 평가하려는 데이터 세트입니다. exog_idx: 평가하려는 설명 변수의 인덱.. 2023. 9. 7.
[patsy] dmatrices patsy 모듈의 dmatrices 함수는 데이터를 통계 모델링을 위한 디자인 행렬(design matrix)로 변환하는 데 사용되는 함수입니다. 이 함수는 주로 회귀 분석 및 통계 모델링을 수행할 때 독립 변수와 종속 변수를 준비하기 위해 활용됩니다. 시그니처 dmatrices 함수의 시그니처는 다음과 같습니다: patsy.dmatrices(formula_like, data, eval_env=0, NA_action='drop', return_type='matrix') formula_like: 종속 변수와 독립 변수의 관계를 지정하는 문자열 형식의 공식(formula)입니다. 이 공식은 R의 모델링 언어와 유사한 형식을 가지며 종속 변수와 독립 변수 간의 관계를 정의합니다. data: 데이터 프레임 또는.. 2023. 9. 7.
[NumPy] nditer() np.nditer 함수는 NumPy 라이브러리에서 다차원 배열을 반복하는 데 사용되는 강력한 도구입니다. 이 함수를 사용하면 배열의 각 요소를 순회하고 조작할 수 있으며, 다차원 배열을 효과적으로 다룰 수 있습니다. np.nditer 함수의 주요 시그니처는 다음과 같습니다 numpy.nditer(arrays, flags=['readwrite'], op_flags=None, op_dtypes=None, order='K', casting='safe', op_axes=None, itershape=None, buffersize=0) 시그니처 arrays (필수 매개변수): 반복하려는 배열이나 배열들의 리스트를 지정합니다. 여러 배열을 지정할 수 있으며, 이들은 동시에 반복됩니다. flags (옵션): 반복 동작.. 2023. 9. 7.