본문 바로가기

전체 글226

RobustScaler RobustScaler는 데이터의 특성을 보존하면서 이상치(outliers)의 영향을 줄이기 위해 사용되는 데이터 스케일링 방법 중 하나입니다. 데이터 전처리 단계에서 사용되며, 주로 통계 및 머신 러닝 모델링에서 입력 데이터를 조정하는 데 활용됩니다. 데이터 스케일링은 입력 데이터의 범위를 조절하여 모델 학습을 더 효과적으로 만드는 프로세스입니다. 일반적인 스케일링 방법 중 하나는 표준화(Standardization)와 정규화(Normalization)가 있는데, 이러한 방법들은 데이터의 평균과 표준 편차 혹은 최솟값과 최댓값을 사용하여 스케일을 조정합니다. 하지만 이상치가 있는 경우에는 이러한 스케일링 방법이 이상치의 영향을 크게 받을 수 있습니다. RobustScaler는 이러한 문제를 해결하기 위.. 2023. 8. 29.
다중 선형 회귀와 절차 다중 선형 회귀 다중 선형 회귀는 하나의 종속 변수(Y)와 둘 이상의 독립 변수(X1, X2, ..., Xn) 간의 선형 관계를 모델링하는 통계적 기법입니다. 다중 선형 회귀는 종속 변수와 독립 변수 간의 선형 관계를 활용하여 종속 변수의 예측 또는 설명을 위해 사용됩니다. 일반적으로 다중 선형 회귀의 모델 형태는 다음과 같습니다: 다중 선형 회귀 분석은 주어진 독립 변수들의 값과 종속 변수 사이의 관계를 통계적으로 모델링하는 것입니다. 회귀 계수 β1,β2,...,βn는 각 독립 변수들이 종속 변수에 미치는 영향을 나타냅니다. 이러한 회귀 계수들을 추정하기 위해 최소 제곱법(Least Squares Method)을 사용하여 모델을 훈련시킵니다. 최소 제곱법은 실제 값과 모델 예측 값 사이의 잔차(오차).. 2023. 8. 29.
결정계수 (Coefficient of Determination) 결정계수 (Coefficient of Determination)는 회귀 분석에서 모델이 주어진 데이터에 얼마나 잘 적합되는지를 나타내는 지표입니다. 주로 R^2로 표기되며, 0과 1 사이의 값을 가지며 높을수록 모델이 데이터를 잘 설명하고 있다는 것을 의미합니다. 결정계수는 주어진 데이터의 분산 중에서 회귀 모델에 의해 설명되는 분산의 비율을 나타냅니다. SSR (Sum of Squares Regression) SSR은 회귀 모델이 독립 변수(입력 변수)로 종속 변수(출력 변수)를 얼마나 잘 설명하는지를 나타내는 값입니다. 즉, 회귀 모델이 예측한 값과 평균값의 차이를 제곱하여 모두 더한 값으로, 회귀 모델이 설명하는 종속 변수의 분산을 측정합니다. SSR은 모델이 데이터에 대해 설명할 수 있는 변동의 .. 2023. 8. 28.
[Scikit-learn] LinearRegression, SGDRegressor Scikit-learn은 파이썬의 머신러닝 라이브러리로, 다양한 머신러닝 알고리즘과 도구를 제공합니다. 여기서는 Scikit-learn 라이브러리 내의 LinearRegression과 SGDRegressor에 대해 간단히 설명하겠습니다. LinearRegression 선형 회귀(Linear Regression)는 종속 변수(y)와 하나 이상의 독립 변수(x) 간의 관계를 모델링하는 데 사용되는 통계적 기법입니다. 간단히 말해, 주어진 데이터 포인트들을 가장 잘 나타내는 선형 함수를 찾는 과정입니다. 선형 회귀는 주어진 데이터와 가장 잘 맞는 직선(또는 다차원 공간에서의 평면)을 찾아내는 것이 목표입니다. 기본적으로 오차의 제곱을 최소화하는 방향으로 모델 파라미터(계수와 절편)를 조정하여 학습합니다. fr.. 2023. 8. 28.
[NumPy] matmul(), dot() NumPy는 파이썬에서 수치 연산을 위한 핵심 라이브러리로 매트릭스 연산과 관련된 함수들을 제공합니다. matmul과 dot 함수는 둘 다 배열(행렬)의 곱셈 연산을 수행하는 함수입니다. np.matmul() 함수 np.matmul(a, b) 함수는 두 배열 a와 b의 행렬 곱셈을 수행합니다. 행렬 곱셈의 규칙에 따라 앞의 행렬의 열과 뒤의 행렬의 행을 일치시켜야 합니다. import numpy as np A = np.array([[1, 2], [3, 4]]) B = np.array([[5, 6], [7, 8]]) result = np.matmul(A, B) print(result) 출력 [[19 22] [43 50]] np.matmul() 함수는 행렬 곱셈 규칙에 따라 연산을 수행하며, 다차원 배열의 .. 2023. 8. 28.
[pandas] columns.difference columns.difference는 pandas 라이브러리에서 데이터프레임의 열을 비교하여 차이점을 반환하는 메서드입니다. 이를 사용하여 특정 열을 인덱싱하는 방법은 다음과 같습니다. 먼저, columns.difference 메서드를 사용하여 원하는 열을 제외한 나머지 열들의 이름을 가져옵니다. 그런 다음 이를 사용하여 데이터프레임의 열을 선택합니다. 아래는 이 과정을 단계별로 설명한 예시입니다. 가정하자면 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd data = { 'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9] } df = pd.DataFrame(data) 이제 columns.difference를 사용하여 'B' 열을 제외.. 2023. 8. 28.
Numpy rand(), randn() rand와 randn은 두 가지 다른 확률 분포로부터 난수를 생성하는 NumPy 라이브러리의 함수입니다. numpy.random.rand 이 함수는 0과 1 사이의 균일 분포(uniform distribution)에서 난수를 생성합니다. 입력으로는 생성할 난수의 개수나 배열의 형태를 지정할 수 있습니다. 생성된 난수는 균등하게 분포되며, 모든 값이 나올 확률이 동일합니다. 예를 들어, np.random.rand(3, 3)는 0과 1 사이의 값으로 채워진 3x3 배열을 생성합니다. import numpy as np # 0과 1 사이의 난수 생성 random_numbers = np.random.rand(5) print(random_numbers) numpy.random.randn 이 함수는 평균이 0이고 표.. 2023. 8. 28.
[데이터분석] 산출물 1. Jupyter 코드 & 출력 원본 사이트 tft_data_analysis_0819 tooha289.github.io 2. 발표 PPT 2023. 8. 27.
[데이터분석] 프로젝트 정의서 [TFT 게임 전 서버 Top10 플레이어 매치 데이터 분석]¶ 기간: 2023-08-17 ~ 2023-08-24 (총 8일) 리더: 신충섭 정의: Riot API를 활용하여 수집한 TFT 데이터를 분석하고 시각화합니다. 목적: 저장한 TFT 매치 데이터로부터 사용자와 운영진 측면의 게임 메타분석, 특성의 연관규칙 등을 분석할 수 있습니다. 범위: 주단위로 수집된 16개의 서버의 Top 10 플레이어 최근 20 경기 분석 대상 : 플레이어, 매치, 유닛, 아이템, 특성 서버 정보는 다음과 같습니다. 브라질(BR1), 유럽서부(EUW1), 유럽북동(EUN1), 일본(JP1), 한국(KR), 라틴아메리카북부(LA1), 라틴아메리카남부(LA2), 북미(NA1), 오세아니아(OC1), 필리핀(PH2), 러시아(.. 2023. 8. 27.