본문 바로가기
Big Data/Math

공분산과 상관계수

by Wikinist 2023. 8. 8.

공분산(Covariance)

공분산(Covariance)은 두 변수 간의 관계를 나타내는 통계적 개념입니다. 두 변수의 값들이 함께 어떻게 변화하는지를 측정하는 데 사용됩니다. 공분산의 값은 두 변수의 상호작용 방향과 세기를 알려줍니다.

공분산을 수식으로 표현하면 다음과 같습니다:

공분산

여기서

변수 설명

공분산 값의 해석은 다음과 같습니다:

양의 공분산: 두 변수가 함께 증가하거나 감소할 때, 공분산 값은 양수입니다. 이는 두 변수가 양의 상관관계를 가지고 있음을 나타냅니다. 즉, 한 변수가 증가할 때 다른 변수도 증가하거나 감소하고, 한 변수가 감소할 때 다른 변수도 감소하거나 증가합니다.

음의 공분산: 한 변수가 증가할 때 다른 변수가 감소하거나, 한 변수가 감소할 때 다른 변수가 증가할 때 공분산 값은 음수입니다. 이는 두 변수가 음의 상관관계를 가지고 있음을 나타냅니다. 하나가 증가하면 다른 하나는 감소하고, 하나가 감소하면 다른 하나는 증가합니다.

공분산이 0: 두 변수 간에 아무런 선형적인 관계가 없을 때 공분산 값은 0입니다. 그러나 이는 두 변수 사이에 다른 종류의 관계가 있을 수 있다는 뜻이며, 두 변수가 독립적이지 않을 수 있습니다.

한계점: 공분산은 변수의 단위에 의존하며, 절대적인 크기 비교를 하기 어렵습니다. 따라서 보다 표준화된 지표인 상관계수(Correlation Coefficient)를 사용하여 변수 간의 관계를 더 정확하게 파악할 수 있습니다.

상관계수는 공분산을 각 변수의 표준편차로 나눈 값으로, -1에서 1 사이의 범위를 가집니다. 상관계수를 통해 두 변수 간의 관계의 강도와 방향을 더 명확하게 알 수 있습니다.

상관계수(correlation coefficient)

상관계수는 두 변수 간의 관계를 숫자로 표현하는 통계적 지표입니다. 주로 두 변수 사이의 선형 관계를 측정하는 데 사용되며, 두 변수가 함께 어떻게 변화하는지를 보여줍니다. 상관계수는 보통 "r"로 표기되며, Pearson 상관계수가 가장 일반적으로 사용됩니다.

Pearson 상관계수는 -1과 1 사이의 값을 가지며, 다음과 같이 계산됩니다:

Pearson 상관계수

여기서,

변수 설명

Pearson 상관계수는 두 변수 사이의 선형 관계 강도와 방향을 나타내며, 높은 상관계수는 두 변수가 비교적 높은 정도로 함께 움직인다는 것을 나타내며, 낮은 상관계수는 두 변수가 상대적으로 약하게 관련되어 있다는 것을 나타냅니다.

하지만 중요한 점은 상관계수가 인과 관계를 나타내지 않는다는 것입니다. 두 변수 간의 상관계수가 높다고 해서 반드시 한 변수가 다른 변수를 원인으로 하는 것은 아닙니다. 다른 요인들이 영향을 미치는 경우에도 상관계수는 높게 나올 수 있습니다.

마지막으로, 상관계수를 사용하여 두 변수 사이의 관계를 파악할 때는 반드시 그림이나 그래프를 함께 고려하여 판단하는 것이 중요합니다. 데이터의 분포와 특성을 시각화하여 더 정확한 해석을 할 수 있습니다.

상관관계의 해석

상관계수는 통계학에서 두 변수 간의 관계의 강도와 방향을 측정하는 데 사용되는 지표입니다. 주로 Pearson 상관계수가 가장 널리 사용되며, 두 변수 간의 선형적인 관계를 측정하는 데 주로 사용됩니다. 상관계수는 -1과 1 사이의 값을 가지며, 다음과 같이 해석됩니다:

1에 가까운 값 (0.8 ~ 1.0): 두 변수 간에 매우 강한 양의 선형 관계가 있음을 나타냅니다. 한 변수가 증가할 때 다른 변수도 거의 확실히 증가하며, 반대로 한 변수가 감소하면 다른 변수도 거의 확실히 감소합니다.

0.5에서 0.8 사이: 두 변수 간에 중간 정도의 양의 선형 관계가 있음을 나타냅니다. 두 변수 사이의 관계는 어느 정도 강하지만, 더 높은 상관성은 아닙니다.

0.3에서 0.5 사이: 두 변수 간에 약한 양의 선형 관계가 있음을 나타냅니다. 관계가 존재하지만 다소 약하며, 다른 요인들의 영향을 받을 가능성이 높습니다.

0 ~ 0.3 사이: 두 변수 간에 거의 선형 관계가 없거나 매우 약한 양의 선형 관계가 있음을 나타냅니다. 두 변수 간의 연관성이 거의 없거나 매우 약합니다.

0에 가까운 값 (-0.3에서 0.3 사이): 거의 선형 관계가 없음을 나타냅니다. 두 변수 간의 연관성이 매우 약하거나 없습니다.

-0.3에서 -0.5 사이: 두 변수 간에 약한 음의 선형 관계가 있음을 나타냅니다. 한 변수가 증가하면 다른 변수는 다소 감소하는 경향이 있습니다.

-0.5에서 -0.8 사이: 두 변수 간에 중간 정도의 음의 선형 관계가 있음을 나타냅니다. 음의 관계가 존재하지만, 더 높은 상관성은 아닙니다.

-1에 가까운 값 (-0.8 ~ -1.0): 두 변수 간에 매우 강한 음의 선형 관계가 있음을 나타냅니다. 한 변수가 증가할 때 다른 변수는 거의 확실히 감소하며, 반대로 한 변수가 감소하면 다른 변수도 거의 확실히 증가합니다.

상관계수는 두 변수 사이의 선형적 관계만을 측정하므로, 비선형적인 관계는 정확하게 파악하지 못할 수 있습니다. 또한, 상관계수가 높다고 해서 반드시 인과관계가 있는 것은 아니며, 다른 요인들의 영향을 고려해야 합니다.

해당 게시글은 ChatGPT의 도움을 받아 작성되었습니다.

'Big Data > Math' 카테고리의 다른 글

확률 모형과 확률분포  (0) 2023.08.09
통계적 검정방법  (0) 2023.08.09
통계에서의 정규화  (0) 2023.08.08
4분위수(Quartiles)  (0) 2023.08.07
연속형 / 이산형 변수  (0) 2023.08.07