연관 규칙 분석

연관규칙 분석

연관규칙 분석은 데이터 내에서 아이템 간의 관계를 찾아내는 데이터 마이닝 기법 중 하나입니다. 이를 통해 어떤 아이템이 다른 아이템과 함께 얼마나 자주 발생하는지, 그리고 이 아이템들 간의 규칙이 얼마나 신뢰할 수 있는지를 평가할 수 있습니다. 이때 사용되는 주요 지표로는 "지지도 (Support)"와 "신뢰도 (Confidence)"가 있습니다.

지지도 (Support)

지지도는 특정 아이템 또는 아이템 집합이 전체 데이터 집합에서 얼마나 자주 나타나는지를 나타내는 지표입니다. 지지도는 다음과 같은 식으로 계산됩니다:
지지도(A -> B) = (A와 B가 동시에 나타나는 거래 수) / (전체 거래 수)

여기서 A는 규칙의 선행절 (antecedent)이며, B는 규칙의 후행절 (consequent)입니다. 예를 들어, 만약 "우유"라는 아이템이 전체 거래 중 100번 나타났고, "우유"와 "빵"이 함께 나타난 거래가 30번이라면, 이 규칙의 지지도는 30/100 = 0.3입니다. 지지도는 어떤 아이템 또는 아이템 집합이 얼마나 일반적인지를 나타내는 지표로 사용됩니다.

신뢰도 (Confidence)

신뢰도는 주어진 선행절 A가 참일 때, 그에 대응하는 후행절 B가 참일 확률을 나타내는 지표입니다. 신뢰도는 다음과 같은 식으로 계산됩니다:
신뢰도(A -> B) = (A와 B가 동시에 나타나는 거래 수) / (A가 나타난 거래 수)

계속해서 예를 들어보면, "우유"가 나타난 거래 중에서 "우유"와 "빵"이 함께 나타난 거래가 30번이고 "우유"가 나타난 거래가 50번이라면, 이 규칙의 신뢰도는 30/50 = 0.6입니다. 신뢰도는 어떤 규칙이 얼마나 신뢰할 만한 규칙인지를 평가하는 지표로 사용됩니다.

지지도와 신뢰도는 연관규칙 분석 결과를 해석하고 선택하는데 도움을 주는 중요한 지표들입니다. 이 두 지표를 적절히 조절하면 더 의미 있는 연관규칙을 발견하고 비즈니스적으로 활용할 수 있습니다.

향상도(Lift)

향상도(Lift)는 연관규칙 분석에서 사용되는 또 다른 중요한 지표입니다. 향상도는 두 아이템 간의 관계가 우연히 발생하는 것인지, 아니면 실제로 의미 있는 연관성을 가지는 것인지를 판단하는 데 도움을 주는 지표입니다.

향상도는 다음과 같은 식으로 계산됩니다:

향상도(A -> B) = P(A와 B가 동시에 나타나는 거래 수) / (P(A) * P(B))

여기서 A는 규칙의 선행절 (antecedent)이며, B는 규칙의 후행절 (consequent)입니다. 향상도가 1보다 크면, 두 아이템 간의 관계가 우연히 발생하는 것보다 높은 확률로 관련성이 있다고 판단할 수 있습니다.

향상도 < 1: 두 아이템 간의 연관성이 낮음을 의미합니다. 이는 하나의 아이템이 다른 아이템의 발생을 예측하는 것보다 낮은 비율로 발생한다는 것을 나타냅니다.
향상도 = 1: 두 아이템 간의 발생이 서로 독립적이며 특별한 연관성이 없음을 나타냅니다.
향상도 > 1: 두 아이템 간의 연관성이 높음을 나타냅니다. 하나의 아이템이 다른 아이템의 발생을 예측하는데 도움을 줄 수 있습니다.
예를 들어, "맥주"와 "야구용품"이 함께 나타난 거래의 지지도가 0.1이고, "맥주"의 지지도가 0.3이며 "야구용품"의 지지도가 0.2일 때, 해당 연관규칙의 향상도는 0.1 / (0.3 * 0.2) = 1.67입니다. 따라서 이 규칙은 우연히 발생하는 것보다 "맥주"와 "야구용품" 간의 연관성이 높다고 볼 수 있습니다.

향상도는 연관규칙의 유용성과 신뢰성을 판단하는 데 도움을 주는 중요한 지표로 활용됩니다.

참조

8. 연관 규칙 분석(Association Rule Analysis) with Python

이번 포스팅에서는 데이터 간의 관계를 탐색하기 위한 방법으로 마케팅 분야에서 많이 활용되고 있는 연관 규칙 분석(마케팅에서는 장바구니 분석이라고도 한다) 대해서 알아보고자 한다. 여기

zephyrus1111.tistory.com

해당 게시글은 ChatGPT의 도움을 받아 작성되었습니다.

저작자표시

'Big Data > DataAnalysis & Manipulate' 카테고리의 다른 글

데이터 스케일러(StandardScaler, MinMaxScaler) (0)	2023.08.25
Apriori 알고리즘 (0)	2023.08.16
pd.pivot_table() (0)	2023.08.16
pandas 결측값 처리 (0)	2023.08.15
Pandas에서 결측값을 다루기 위한 여러 함수 (0)	2023.08.11

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

All of my life

연관 규칙 분석