상세 컨텐츠

본문 제목

주성분분석 (PCA, Principal Component Anlysis) - 데이터의 분산이 최대한 되는 것이 왜 정보를 최대한 보존시키는 것인가?

AI/Machine Learning

by mk coding 2024. 2. 13. 19:33

본문

데이터의 분산이 정보를 보존하는데 중요한 역할을 하는 이유는 분산이 데이터가 얼마나 퍼져 있는지를 나타내는 척도이기 때문이다. 

분산이 크다는 것은 데이터 값들이 평균에서 멀리 떨어져 분포하고 있다는 것을 의미한다. 이는 데이터 내에 다양한 정보가 많이 담겨 있다는 것을 뜻하며, 이런 정보는 데이터 간의 차이나 데이터의 특징 등을 나타내는 데 사용될 수 있다. 

따라서, 주성분 분석(PCA)에서는 원본 데이터의 분산(즉, 정보)을 최대한 보존하는 축을 찾아야 한다. 만약 분산이 최대화되는 축이 아닌 다른 축을 선택한다면, 그 축에서의 데이터 분포는 원본 데이터의 분산보다 작아지게 된다. 

이는 원본 데이터의 정보 일부가 손실되었다는 것을 의미하며, 이런 정보 손실은 데이터 분석의 정확도를 떨어뜨릴 수 있다. 

따라서 원본 데이터의 정보를 최대한 보존하기 위해 분산이 최대화되는 주성분을 찾음으로써 차원 축소에 있어 정확도를 유지시킬 수 있다.  

관련글 더보기