판다스에는 데이터 분석에 유용한 여러가지 메소드와 속성이 미리 정의되어 있다.
판다스 객체의 데이터를 확인하는 다양한 방법 소개
.shape 속성을 이용하면 데이터의 (행, 열) 크기를 확인한다.
.info() 함수는 데이터에 대한 전반적인 정보를 나타낸다.
df를 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형 등을 출력해 준다.
데이터를 잘 불러왔는지 확인하기 위해 앞 부분과 마지막 부분을 확인한다.
.head() 함수와 .tail() 함수는 불러온 데이터의 상/하위 5개의 행을 출력한다.
괄호안에 원하는 숫자를 넣는다면 그 숫자만큼 행을 출력한다.
인덱스(행 이름)와 열의 레이블(컬럼 이름)을 출력하려면, .index와 .columns를 사용한다.
데이터프레임의 인덱스(행 이름)을 반환한다. 인덱스를 따로 지정하지 않았기 때문에 0부터 시작하는 인덱스가 부여되었다.
.columns 속성을 이용하면 해당 데이터프레임을 구성하는 컬럼명을 확인한다.
이 기능은 컬럼명을 변경할 때도 유용하게 사용된다.
.describe() 함수는 데이터의 컬럼별 요약 통계량을 나타낸다.
mean(), max(), median() 등 개별 함수를 사용하여 통계량을 계산할 수도 있다.
.sort_values()를 사용해서 데이터 크기순으로 정렬한다. 예제에서는 두 번째 열의 값의 크기에 따라 DataFrame을 정렬했다.
함수 형식 DataFrame.sort_values(by = [ '정렬변수', '정렬변수2',], ascending = False, inplace = True) 1. by = [ ] : by = 을 사용하지 않아도 된다. 2. inplace = True : 정렬 결과가 동일 데이터프레임이름으로 저장된다. 3. ascending = True : 디폴트이므로 오름차순 정렬이면 사용하지 않아도 된다. 단, 내림차순이면 ascending = False 사용한다. |
범주형 변수의 빈도분석 결과를 출력한다. 즉, 어떤 컬럼의 unique value들의 개수를 구한다.
데이터가 어떤 구성으로 이루어져 있는지 확인하려면, .unique()로 해당 열의 고유값을 볼 수 있다.
본 게시글은 상업적 목적이 아닌 학습용 게시글임을 밝힙니다.
판다스 데이터 선택 (0) | 2024.02.29 |
---|---|
판다스 객체 생성 (1) | 2024.02.29 |
PANDAS 기초 문법 정리1_PANDAS란? (0) | 2024.01.22 |