주성분분석에서 주성분들은 서로 직교하도록 정의된다. 이는 데이터의 분산을 최대로 하는 과정에서 생기는 결과이다.
이렇게 직교하도록 정의하는 이유는 주성분들 간의 독립성 확보에 있다.
1. 독립성 확보 : 주성분들이 직교하면, 각 주성분들은 서로 독립적인 정보를 담게 된다. 즉, 하나의 주성분이 다른 주성분의 정보를 중복해서 포함하지 않게 된다. 이렇게 되면, 각 주성분이 데이터의 다른 면을 표현하게 되므로 데이터를 더욱 효율적으로 이해하고 표현할 수 있다.
2. 차원 축소 : 주성분 분석은 고차원의 데이터를 저 차원으로 축소하는데 주로 사용된다. 주성분들이 서로 직교하면, 새로운 축(주성분 분석을 통해 찾아낸 새로운 주성분)들 사이에 상관관계가 없게 되므로, 불필요한 차원을 제거하고 남은 차원들이 원본 데이터를 잘 표현하게 된다.
따라서, 주성분들이 서로 수직하도록 하는 것은 데이터의 독립성을 확보하고, 차원을 축소하는 데 있어서 중요한 역할을 한다.
그렇다면 여기서 질문이 생길 수 있다.
데이터의 분산이 최대한 되는 것이 왜 정보를 최대한 보존시키는 것인가?
수직이 아닌 방향들 중에서 수직 방향인 축보다 분산이 더 클 수 있는가?
첫 번째 주성분에 수직인 모든 방향의 분산이 첫 번째 주성분의 분산보다 무조건 작은가?
그건 다음 글에서 살펴보도록 하자.
주성분분석 (PCA, Principal Component Anlysis) - 수직이 아닌 방향들 중에서 수직 방향인 축보다 분산이 더 클 수 있는가? (0) | 2024.02.13 |
---|---|
주성분분석 (PCA, Principal Component Anlysis) - 데이터의 분산이 최대한 되는 것이 왜 정보를 최대한 보존시키는 것인가? (0) | 2024.02.13 |
Logistic function - loss function (0) | 2024.02.04 |
sigmoid function의 이해 (0) | 2024.02.04 |
머신러닝 회귀에서 최적의 회귀식을 찾을 때 최소제곱법을 쓰지 않고 굳이 경사하강법을 쓰는 이유? (0) | 2024.02.02 |