본문 바로가기
AI/Machine-Learning

추천시스템

by Wikinist 2023. 12. 5.

추천 시스템 알고리즘은 사용자에게 상품, 서비스 또는 콘텐츠를 추천하는데 사용되는 다양한 기술과 방법을 포함합니다. 이러한 알고리즘들은 크게 세 가지 유형으로 분류할 수 있습니다.

콘텐츠 기반 필터링(Content-Based Filtering)

콘텐츠 기반 필터링은 사용자의 이전 행동과 항목 자체의 특징을 기반으로 추천을 수행하는 추천 시스템 알고리즘 중 하나입니다. 이 방법은 사용자가 이전에 선호한 항목과 유사한 콘텐츠를 가진 항목을 추천합니다. 주로 아이템의 특성, 속성, 키워드 등을 분석하여 사용자의 취향을 파악하고 이를 기반으로 추천을 생성합니다.

다음은 콘텐츠 기반 필터링의 주요 특징과 동작 원리에 대한 자세한 설명입니다

아이템 특성 분석

콘텐츠 기반 필터링에서는 아이템(콘텐츠)의 특성이 중요합니다. 이는 예를 들어 영화의 장르, 작가, 배우, 책의 주제, 노래의 장르 등과 같은 항목의 특징을 의미합니다.
이러한 특성은 텍스트 데이터, 이미지 분석, 음성 처리 등 다양한 방법으로 추출될 수 있습니다.

사용자 프로파일 구성

사용자의 이전 행동(평가, 구매 기록 등)을 기반으로 사용자 프로파일을 구성합니다. 이를 통해 사용자가 선호하는 콘텐츠의 특성을 파악합니다.
사용자 프로파일은 일반적으로 아이템 특성에 대한 가중치를 나타내며, 사용자의 취향을 정량화합니다.

유사성 측정

아이템 간의 유사성을 측정하는 알고리즘을 사용하여 사용자가 선호하는 아이템과 유사한 아이템을 찾습니다.
코사인 유사도, 자카드 유사도, 피어슨 상관계수 등이 일반적으로 사용되는 유사성 측정 방법입니다.

추천 생성

유사성이 측정된 아이템 중에서 사용자가 아직 평가하지 않은 새로운 아이템을 선택하여 추천 리스트를 생성합니다.
가중 평균이나 기타 방법을 사용하여 사용자에게 제공될 추천 점수를 계산합니다.

장점과 단점

장점: 새로운 아이템에 대한 추천이 가능하며, 아이템의 내용을 기반으로 사용자의 선호도를 이해하는 데 유용합니다.
단점: 사용자의 선호도 외의 다양한 요인(시대적 변화, 트렌드 등)을 반영하기 어렵고, 아이템의 특성을 정확하게 추출하기 어려울 수 있습니다.
콘텐츠 기반 필터링은 주로 아이템의 내용을 기반으로 추천을 수행하므로, 아이템에 대한 상세한 정보가 필요하며, 이를 통해 개인화된 추천을 제공할 수 있습니다.

협업 필터링(Collaborative Filtering)

협업 필터링(Collaborative Filtering)은 메모리 기반과 모델 기반 두 가지 주요 접근 방식으로 나뉩니다. 이 두 방식은 추천 시스템에서 사용자와 아이템 간의 상호작용 정보를 활용하는데 있어서 다르게 접근하고 있습니다.

1. 메모리 기반 협업 필터링:

메모리 기반 협업 필터링은 사용자들 간의 상호작용 정보를 직접 계산하여 추천을 수행하는 협업 필터링의 한 유형입니다. 이 방식은 사용자가 어떤 아이템을 선호하는지를 추론하기 위해 사용자나 아이템 간의 유사성을 계산하는데 주로 의존합니다. 주로 두 가지 유형으로 나뉩니다.

장점:

  • 간편하게 이해하고 구현할 수 있습니다.
  • 사용자나 아이템 간의 유사성을 직접 계산하기 때문에 명시적이고 직관적입니다.

단점:

  • 대규모 데이터에 대한 확장성이 제한적일 수 있습니다.
  • 유사성 행렬을 미리 계산해야 하므로 초기 비용이 큽니다.

1. 사용자 기반 협업 필터링 (User-Based Collaborative Filtering):

동작 원리:

  1. 사용자 유사성 계산: 각 사용자 간의 유사성을 계산합니다. 일반적으로는 코사인 유사도, 피어슨 상관계수 등이 사용됩니다.
  2. 이웃 선정: 특정 사용자와 가장 유사한 사용자들을 선택합니다. 이러한 사용자들을 이웃이라고 부릅니다.
  3. 추천 생성: 이웃 사용자들이 선호한 아이템을 기반으로, 이웃의 선호도를 가중 평균하여 추천 아이템을 생성합니다.

장점:

  • 직관적이며 이해하기 쉽습니다.
  • 사용자의 개인적인 취향을 반영하므로 개인화된 추천이 가능합니다.

단점:

  • Cold start 문제에 취약합니다. 새로운 사용자에 대한 추천이 어려울 수 있습니다.
  • 데이터 희소성 문제가 있을 수 있습니다. 일부 사용자들이나 아이템에 대한 정보가 부족할 경우 정확한 추천이 어려울 수 있습니다.

2. 아이템 기반 협업 필터링 (Item-Based Collaborative Filtering):

동작 원리:

  1. 아이템 유사성 계산: 각 아이템 간의 유사성을 계산합니다.
  2. 이웃 선정: 특정 아이템과 가장 유사한 아이템들을 선택합니다. 이러한 아이템들을 이웃이라고 부릅니다.
  3. 추천 생성: 사용자가 이전에 선호한 아이템 중에서, 이웃 아이템들의 선호도를 가중 평균하여 추천 아이템을 생성합니다.

장점:

  • 사용자 간의 유사성 계산보다 아이템 간의 유사성 계산이 더 효율적일 수 있습니다.
  • 일반적으로 사용자 간의 유사성 계산보다 안정적이고 일관된 추천을 제공할 수 있습니다.

단점:

  • 아이템이 추가되거나 변경될 때 모델 업데이트가 어려울 수 있습니다.
  • 모든 사용자에 대한 추천을 계산하는 것이 비용이 많이 들 수 있습니다.

메모리 기반 협업 필터링은 간단하게 구현할 수 있고, 초기 구축 비용이 적은 편이지만, 대규모 데이터에 대한 확장성이 제한적일 수 있습니다. 최근에는 메모리 기반과 모델 기반을 조합한 하이브리드 방식이 주로 사용되어 이러한 한계를 극복하고 있습니다.

2. 모델 기반 협업 필터링:

모델 기반 협업 필터링은 사용자들 간의 상호작용 정보를 학습한 모델을 사용하여 추천을 수행하는 추천 시스템 기법입니다. 이 방식은 사용자나 아이템 간의 특성과 상호작용을 학습하여, 새로운 아이템에 대한 추천을 생성합니다. 주로 두 가지 유형으로 나뉩니다: 메모리 기반 협업 필터링과 달리, 모델 기반 협업 필터링은 추천 모델을 학습하여 사용자의 선호도를 예측하거나 아이템 간의 관계를 모델링합니다.

장점:

  • 대규모 데이터에 대한 확장성이 더 좋을 수 있습니다.
  • 다양한 특징과 패턴을 학습하여 더 정교한 추천이 가능합니다.

단점:

  • 모델 학습에 필요한 계산 비용이 메모리 기반보다 많을 수 있습니다.
  • 모델의 복잡성에 따라 해석이 어려울 수 있습니다.

모델 기반 협업 필터링의 주요 특징:

  1. 모델 학습:
    • 사용자의 상호작용 데이터를 사용하여 모델을 학습합니다. 이 모델은 사용자가 아이템에 대한 선호도를 예측하거나, 아이템 간의 유사성을 모델링하는 등의 작업을 수행합니다.
  2. 추천 생성:
    • 모델이 학습된 후, 새로운 아이템이나 사용자에 대한 추천을 생성합니다. 모델은 학습된 특성과 패턴을 기반으로 사용자에게 적절한 아이템을 추천합니다.
  3. 모델 종류:
    • 모델 기반 협업 필터링에서 사용되는 주요 모델에는 행렬 분해(Matrix Factorization), 딥러닝 기반 모델 등이 있습니다. 행렬 분해는 사용자와 아이템을 잠재적인 요인으로 분해하여 모델을 학습하고, 딥러닝 기반 모델은 신경망을 사용하여 더 복잡한 특징을 학습합니다.
  4. 사용자 개인화:
    • 모델 기반 협업 필터링은 각 사용자에 대한 개인화된 추천을 생성할 수 있습니다. 모델이 학습한 사용자의 특성과 선호도를 기반으로 추천이 이루어지기 때문입니다.
  5. 해석의 어려움:
    • 모델 기반 협업 필터링에서는 모델이 복잡한 특성과 패턴을 학습할 수 있어 정확한 예측이 가능하지만, 모델이 어떻게 작동하는지를 해석하는 것이 어려울 수 있습니다.

비교:

  • 메모리 기반: 미리 계산된 유사성 정보를 사용하여 추천을 수행하므로 실시간 업데이트가 어렵고 확장성이 제한됩니다.
  • 모델 기반: 학습된 모델을 사용하므로 실시간 업데이트가 가능하고, 데이터의 특징을 학습하여 정교한 추천이 가능합니다. 그러나 초기 모델 학습 비용이 크고, 모델의 복잡성과 해석이 어려울 수 있습니다.

양쪽의 장단점을 고려하여 선택되는데, 최근에는 두 기법을 조합하는 하이브리드 방식이 주로 사용되며, 이는 각각의 장점을 결합하여 더 효과적인 추천을 제공합니다.

하이브리드(Hybrid)

개념: 콘텐츠 기반 필터링과 협업 필터링의 장점을 결합한 방법으로, 두 가지 이상의 알고리즘을 혼합하여 사용합니다.
동작 원리: 콘텐츠 기반과 협업 필터링을 조합하여 추천 성능을 향상시키고, 각각의 알고리즘이 가진 단점을 보완합니다.
장점: 다양한 유형의 데이터를 고려하여 더 강력한 추천을 제공할 수 있습니다.
단점: 설계와 유지보수가 더 복잡할 수 있으며, 알고리즘 간의 상호작용을 조절하는 것이 중요합니다.
추천 시스템은 이러한 기본적인 분류 외에도 다양한 변형과 확장이 이루어지고 있으며, 실제 적용 시에는 사용자의 특성, 데이터의 특성, 시스템의 목적 등을 고려하여 적절한 알고리즘을 선택하는 것이 중요합니다.

'AI > Machine-Learning' 카테고리의 다른 글

XGBoost  (2) 2023.10.02
머신러닝 모델 및 데이터 전처리를 위한 주요 클래스  (0) 2023.09.21
KFold  (0) 2023.09.21
Recursive Feature Elimination (RFE)  (0) 2023.09.12
주성분 분석(Principal Component Analysis, PCA)  (0) 2023.09.08