수학의 아름다움은 그 추상화에 있습니다. 하지만, 구체적이라고 아름답지 않다거나 중요하지 않다는 것은 아닙니다. 인공지능과 머신러닝 기술이 점점 더 발달함에 따라 고차원 데이터를 분석하는 일은 더욱 중요해지고 우리의 삶에 들어오고 있습니다. 본 글에서는 고차원 유클리드 공간의 반직관적인 행동들에 대해서 살펴봅니다.
우리가 학교에서 배우는 2,3차원의 저차원 위상공간과는 다르게 고차원 위상공간은 또다른 geometry와 behavior를 가지고 있습니다. 예를 들어, 평균이 0이고 표준편차가 1인 가우시안 데이터를 $d$-차원 고안에서 $n$개 생성하면, 높은 확률로 모든 데이터 포인트들 사이의 거리는 일정합니다. 이러한 이상한 행동들을 살펴보도록 합시다.
Random point들을 $d$-차원에서 $n$개 생성하고 이들 사이의 거리를 측정해 봅시다. $y=(y_1,\cdots,y_d)$, $z=(z_1,\cdots,z_d)$로 두고 두 벡터 사이의 거리를 측정하면 다음처럼 나올 것입니다:
$$ \|y-z\|^2=\sum_{i=1}^d(y_i-z_i)^2 $$
이 때 $x_i:=(y_i-z_i)^2$은 iid(independent and identically distributed)가 될 것은 확실합니다. 이러한 경우에 law of large numbers를 적용하면,
$$ \text{Prob}\bigg(\bigg|\frac{x_1+\cdots+x_n}{n}-\mathbb{E}[x_1]\bigg|\geq\epsilon\bigg)\leq\frac{\text{Var}(x_1)}{n\epsilon} $$
이 됩니다. 이 식은 다음과 같습니다:
$$ \begin{align*}\text{Prob}\big(\big|(x_1+\cdots+x_n)-n\mathbb{E}[x_1]\big|&\geq n\epsilon\big)\leq\frac{\text{Var}(x_1)}{n\epsilon}\\\Longleftrightarrow\text{Prob}\bigg(\bigg|\|y-z\|^2-n\mathbb{E}[x_1]\bigg|&\geq n\epsilon\bigg)\leq\frac{\text{Var}(x_1)}{n\epsilon}\end{align*} $$
그러면 우변, 혹은 이 확률의 upper bound가 감소할수록, 즉 $n\epsilon$이 증가할수록 좌변의 확률도 감소합니다. 다른 말로 하면, $\|y-z\|^2$과 $n\mathbb{E}[x_1]$의 차이가 많이 차이날 가능성이 적어진다는 말이지요.
그림을 통해 살펴봅시다. 먼저 100차원에서의 평균 거리입니다. (서로 다른 차원의 벡터간 거리 비교를 위해 차원으로 정규화를 하였습니다.)
대부분의 데이터가 1.5에서 2.5 사이에 위치하는 것을 살펴볼 수 있습니다. 차원을 10배 해서 1000차원으로 봅시다.
대부분의 데이터가 1.8부터 2.2 사이군요. 실제로 줄어들었습니다. 이제 10배 더 늘려서 10000차원으로 가봅시다.