본문 바로가기

전체 글226

[SQL] LIKE SQL의 LIKE 문은 문자열 패턴을 검색하는 데 사용되는 연산자입니다. 주로 문자열 컬럼에서 특정 패턴이나 문자열을 포함하는 행을 검색할 때 사용됩니다. LIKE 연산자는 SQL에서 비교 연산자 중 하나이며, 주로 SELECT 문과 함께 사용됩니다. LIKE 연산자는 다음 두 개의 기본 와일드카드 문자와 함께 사용됩니다: % (퍼센트 기호): 이것은 임의의 문자열 시퀀스와 일치하는 와일드카드입니다. 예를 들어, 'a%' 패턴은 "a"로 시작하는 모든 문자열을 일치시킵니다. _ (언더스코어): 이것은 정확히 하나의 문자와 일치하는 와일드카드입니다. 예를 들어, 'a_' 패턴은 "a"로 시작하고 두 번째 문자가 무엇이든 상관없는 모든 두 문자의 문자열을 일치시킵니다. 아래는 간단한 LIKE 문의 예제입니다.. 2023. 9. 26.
[Keras] EarlyStopping EarlyStopping은 머신 러닝 모델의 훈련을 중지시키는 콜백(callback) 클래스 중 하나로, 특정 조건이 충족되면 모델 훈련을 조기에 멈추도록 도와주는 역할을 합니다. 이 클래스는 주로 훈련 중 과적합(overfitting)을 방지하거나, 최상의 검증 성능을 갖는 모델을 선택하기 위해 사용됩니다. 시그니처 EarlyStopping 클래스의 시그니처 (메서드와 파라미터)는 라이브러리 또는 프레임워크에 따라 다를 수 있지만, 일반적인 시그니처는 다음과 같습니다: from tensorflow.keras.callbacks import EarlyStopping EarlyStopping(monitor='val_loss', min_delta=0, patience=0, verbose=0, mode='aut.. 2023. 9. 21.
[Keras] Sequential 모델과 Dense, Dropout TensorFlow의 Sequential 클래스는 신경망 모델을 만들기 위한 고수준 API 중 하나로, 순차적으로 레이어를 쌓아 간단한 신경망 모델을 구축하는 데 사용됩니다. 이 클래스는 특히 간단한 feedforward 신경망을 만들 때 유용합니다. Sequential 모델은 순서대로 레이어를 추가하면, 입력 데이터가 첫 번째 레이어에서 시작하여 순차적으로 각 레이어를 통과하게 됩니다. 주요 단계 Sequential 클래스를 사용하여 신경망 모델을 만드는 주요 단계는 다음과 같습니다: Sequential 모델 생성 from tensorflow.keras.models import Sequential model = Sequential() 레이어 추가 model.add() 메서드를 사용하여 순차적으로 레이어.. 2023. 9. 21.
머신러닝 모델 및 데이터 전처리를 위한 주요 클래스 머신러닝 모델 및 데이터 전처리를 위한 주요 클래스들이 있습니다. 다음은 몇 가지 소개할 만한 클래스들입니다: GridSearchCV 및 RandomizedSearchCV 이 클래스들은 하이퍼파라미터 튜닝을 위해 사용됩니다. GridSearchCV는 지정된 하이퍼파라미터 그리드에서 모든 조합을 시도하고 최적의 하이퍼파라미터를 찾아줍니다. RandomizedSearchCV는 랜덤 샘플링을 통해 하이퍼파라미터 공간에서 무작위로 조합을 시도합니다. from sklearn.model_selection import GridSearchCV, RandomizedSearchCV Pipeline Pipeline 클래스는 데이터 전처리와 모델 훈련 단계를 하나의 파이프라인으로 묶어주는 데 사용됩니다. 이를 통해 코드를 더.. 2023. 9. 21.
KFold KFold는 교차 검증 (cross-validation)을 수행하는 데 사용되는 기술 중 하나입니다. 교차 검증은 기계 학습 모델의 성능을 평가하고 모델이 과적합되지 않도록 도와주는 중요한 기술 중 하나입니다. KFold 교차 검증은 데이터를 여러 부분 집합으로 나누고, 각각의 부분 집합을 훈련 및 검증 데이터로 사용하여 모델을 여러 번 훈련하고 평가합니다. 주로 사용되는 KFold 클래스와 관련된 라이브러리 및 클래스는 다음과 같습니다. KFold scikit-learn은 파이썬의 머신러닝 라이브러리 중 하나로, KFold 클래스를 제공합니다. KFold는 데이터를 여러 폴드(fold)로 나누고, 각 폴드를 순차적으로 검증 데이터로 사용하고 나머지 폴드를 훈련 데이터로 사용하여 교차 검증을 수행하는 데.. 2023. 9. 21.
LSTM(Long Short-Term Memory) LSTM은 "Long Short-Term Memory"의 약어로, 순환 신경망(Recurrent Neural Network, RNN) 아키텍처의 한 종류입니다. LSTM은 시퀀스 데이터를 처리하고 장기적인 의존성을 학습하는 데 사용되며, 주로 자연어 처리 및 시계열 예측과 같은 응용 분야에서 널리 사용됩니다. LSTM은 RNN의 한계를 극복하기 위해 개발되었는데, RNN은 긴 시퀀스 데이터에 대한 학습에서 그래디언트 소실 혹은 폭발 문제를 가지고 있습니다. 이로 인해 RNN은 긴 시퀀스에 대한 정보를 적절히 유지하지 못하는 경향이 있습니다. LSTM은 이러한 문제를 해결하기 위해 다음과 같은 주요 구성 요소를 도입했습니다. 주요 구성요소 Cell State (셀 상태): LSTM은 고정된 길이의 메모리 .. 2023. 9. 18.
피어슨 상관계수와 스피어만 상관계수 피어슨 상관계수(Pearson Correlation Coefficient) 피어슨 상관계수는 두 변수 간의 선형 관계를 측정합니다. 주로 연속형 변수 간의 상관 관계를 계산하는 데 사용됩니다. 공식은 다음과 같습니다: 값의 범위: -1에서 1 사이의 값을 가지며, 다음과 같이 해석됩니다. 1에 가까우면, 강한 양의 선형 상관관계가 있음을 나타냅니다. -1에 가까우면, 강한 음의 선형 상관관계가 있음을 나타냅니다. 0에 가까우면, 선형 상관관계가 거의 없거나 매우 약할 가능성이 있습니다. 가정: 피어슨 상관계수를 사용하기 위해서는 두 변수가 정규분포를 따르고 선형성을 보이는 것이 중요합니다. 이러한 가정이 충족되지 않을 경우 해석이 왜곡될 수 있습니다. 스피어만 상관계수(Spearman Correlatio.. 2023. 9. 17.
데이터 직군과 취업전략 (by 이지은 강사님) 직군 Data Engineer, Data Scientist, Data Analyst PO, CRM Marketer, Performance Marketer, Growth Marketer 데이터 직무의 핵심 문제의 본질을 파악하는 논리력이 중요하다. 기술 스택도 중요하지만 어떤 흐름으로 문제를 분석했는지가 중요하다. 사이언티스트의 경우에도 최신기술을 잘 사용하는 사람은 너무나 많으니 어떠한 문제가 있을 때 어떤 과정으로 문제를 해결했는지가 중요하다. 예를 들면 어떠한 기술을 사용했을 때 왜 그런 기술을 사용해서 분석을 수행했는지와 그러한 분석을 수행했을 때 왜 그런 결과가 나왔는지에 대한 이해가 중요하다. 산업 이해도, 관심도(비즈니스모델 파악)가 중요하다. 수익구조를 이해하는게 중요하다. 이력서의 프로젝트.. 2023. 9. 15.
[TensorFlow] Tokenizer 텐서플로우(TensorFlow)의 Tokenizer 클래스는 자연어 처리(Natural Language Processing, NLP) 작업을 수행할 때 텍스트 데이터를 토큰(token)으로 분리하고 관리하기 위한 도구 중 하나입니다. 토큰은 텍스트를 작은 단위로 나눈 것으로, 예를 들면 단어, 문장 부호, 혹은 문자 등이 될 수 있습니다. Tokenizer 클래스는 주로 다음과 같은 목적으로 사용됩니다: 목적 텍스트 토큰화(Tokenization): 주어진 텍스트를 토큰으로 나누는 작업을 수행합니다. 이를 통해 문장을 단어, 문장 부호, 혹은 하위 단위로 분해할 수 있으며, 이러한 토큰은 머신러닝 모델의 입력으로 사용됩니다. 어휘(Vocabulary) 구축: Tokenizer는 데이터로부터 추출한 토큰들.. 2023. 9. 13.