본문 바로가기

분류 전체보기226

Parameter & Hyperparameter "Parameter(파라미터)"와 "Hyperparameter(하이퍼파라미터)"는 머신러닝과 딥러닝 모델을 다룰 때 중요한 개념입니다. 두 용어의 차이점과 역할을 설명하겠습니다. Parameter(파라미터) 모델 내부에서 학습되는 값들을 의미합니다. 데이터로부터 학습 과정을 통해 조정되는 값들입니다. 모델이 주어진 데이터에 대해 학습되어 예측을 수행하게 됩니다. 예를 들어, 선형 회귀 모델에서는 기울기와 절편이 파라미터입니다. 신경망에서는 가중치(weight)와 편향(bias)이 파라미터입니다. Hyperparameter(하이퍼파라미터) 모델의 학습 과정이나 특성을 제어하는 매개변수들을 의미합니다. 이 값들은 모델 학습 전에 수동으로 설정되며, 학습 과정 동안 최적화되지 않습니다. 모델의 성능, 학습 속.. 2023. 8. 7.
모수와 통계량 모수(Parameter)와 통계량(Statistic)은 통계학에서 중요한 개념으로, 데이터를 요약하고 분석하는 데 사용됩니다. 이 두 용어는 모집단과 표본 간의 관계를 나타냅니다. 모수(Parameter) 모수는 모집단(population)의 특성을 나타내는 고정된 수치입니다. 모집단은 연구하고자 하는 전체 집단을 의미하며, 모수는 이 모집단의 특성을 정확하게 나타내는 값입니다. 하지만 실제로는 대개 모집단 전체를 조사하기 어렵기 때문에 모수를 정확하게 알기는 어렵습니다. 예를 들어, 모집단의 평균, 분산, 비율 등이 모수에 해당합니다. 통계량(Statistic) 통계량은 표본(sample)에서 얻은 값을 기반으로 모집단의 모수를 추정하는 데 사용되는 값입니다. 표본은 모집단의 일부분으로, 통계량은 표본.. 2023. 8. 7.
기술통계와 추측통계 기술통계(Descriptive Statistics)와 추측통계(Inferential Statistics)는 통계학의 두 가지 주요 분야입니다. 각각 데이터의 특성을 요약하고 설명하는 역할과 미래의 불확실성을 예측하거나 결론을 도출하는 역할을 합니다. 1. 기술통계(Descriptive Statistics) 기술통계는 주어진 데이터 집합의 특성을 요약하고 설명하는 통계적 방법을 의미합니다. 주어진 데이터의 중심 경향(평균, 중앙값, 최빈값 등)과 분산(표준편차, 범위 등)을 파악하여 데이터의 전반적인 특성을 이해하는 데 사용됩니다. 기술통계는 데이터를 직관적으로 이해하고 요약함으로써 데이터의 기본적인 패턴과 특징을 파악하는 데 도움을 줍니다. 주요 기술통계 개념 평균(Mean): 모든 값의 합을 개수로 나.. 2023. 8. 7.
[데이터 저장] 분석 쿼리 테스트 use tftdb; -- 플레이어 데이터 확인 SELECT count(*) FROM tftdb.player; SELECT count(*) FROM tftdb.player_statistic; -- 매치 데이터 확인 SELECT count(*) FROM tftdb.match; SELECT count(*) FROM tftdb.match_player; SELECT count(*) FROM tftdb.match_augment; SELECT count(*) FROM tftdb.match_trait; SELECT count(*) FROM tftdb.match_unit; -- 사용된 증강의 종류 SELECT DISTINCT name FROM match_augment ORDER BY name; -- 사용된 특성의 종류 .. 2023. 8. 7.
[데이터 저장] ERD & 테이블 정의서 1. ERD 2. 테이블 정의서 2023. 8. 7.
[데이터 저장] 데이터 정의서 [데이터 명세] [TFT 최상위 플레이어 매치 데이터] 1. 데이터 정의 TFT 매치의 최종 결과 데이터이며, 국가별 Top10의 플레이어들의 최근 10경기 정보입니다. 2. 수집 방법 Riot API 에서 제공하는 TFT-MATCH-V1을 이용합니다. 3. 수집 경로 Riot Developer Portal(https://developer.riotgames.com/apis#tft-match-v1/) 4. 데이터의 논리적 구조 데이터의 논리적 구조를 이해하기 위해 아래의 이미지를 참고할 수 있습니다. 4.1 Matches 이름 설명 match_id 매치 아이디입니다. match_date 매치가 시작한 날짜 정보입니다.(datetime) match_length 매치 길이입니다.(단위: 초) version_m.. 2023. 8. 7.
[데이터 저장] 프로젝트 정의서 [TFT 게임 각 서버 최상위 플레이어들의 매치 데이터 저장] 기간: 2023-07-31 ~ 2023-08-03 (총 4일) 리더: 신충섭 정의: Riot API를 활용하여 수집한 TFT 데이터를 MySQL DB에 저장합니다. 목적: 저장한 TFT 매치 데이터를 통하여 메타분석, 챔피언이나 아이템들의 상관관계를 분석할 수 있습니다. 범위: 16개의 서버에 대한 TFT 데이터 테이블(Player, PlayerStatistic, Match, MatchPlayer, MatchAugment, MatchTrait, MatchUnit)을 생성하고 데이터를 삽입합니다. 서버 정보는 다음과 같습니다. 브라질(BR1), 유럽서부(EUW1), 유럽북동(EUN1), 일본(JP1), 한국(KR), 라틴아메리카북부(LA1), .. 2023. 8. 7.
DataFrame Indexer 판다스(DataFrame)에서 데이터에 접근하고 조작하는 데 사용되는 인덱서(indexer)에 대해 설명해드리겠습니다. 인덱서(Indexer) 인덱서는 데이터프레임에서 행과 열에 접근하기 위한 메서드(method)를 의미합니다. loc와 iloc이 가장 널리 사용되는 인덱서인데, loc은 레이블 기반 인덱싱을 수행하고 iloc은 위치 기반 인덱싱을 수행합니다. 이 외에도 at, iat과 같은 인덱서도 있습니다. iloc iloc은 데이터프레임에서 위치 기반 인덱싱을 수행하는 데 사용되는 속성(attribute)입니다. 행과 열의 위치를 사용하여 데이터에 접근하고 조작하는 데에 활용됩니다. iloc은 정수 인덱스를 기반으로 하며, 행과 열의 인덱스를 숫자로 지정하여 데이터에 접근할 수 있습니다. impor.. 2023. 8. 4.
Pandas DataFrame 구조 pandas는 Python 프로그래밍 언어를 위한 데이터 분석 및 조작 라이브러리입니다. pandas는 크게 Series, DataFrame 및 Index라는 세 가지 주요 데이터 구조를 제공합니다. 각각의 역할과 특징을 설명해보겠습니다. Series Series는 1차원 데이터 배열로, 인덱싱된 데이터의 순서를 가지고 있습니다. Series는 Python의 리스트나 배열과 유사하지만, 추가적으로 인덱스를 사용하여 각 데이터 포인트에 접근할 수 있습니다. 예를 들어, 날짜와 온도 데이터를 저장할 수 있는데, 날짜가 인덱스가 되고 해당 날짜의 온도가 값으로 저장될 수 있습니다. 시리즈는 기본적으로 인덱스와 데이터 값을 가지는 1차원 데이터 구조입니다. 데이터프레임의 열은 시리즈로 구성되며, 각 시리즈는 해.. 2023. 8. 4.