판다스 데이터 확인

PYTHON/PANDAS

by mk coding 2024. 2. 29. 15:04

판다스에는 데이터 분석에 유용한 여러가지 메소드와 속성이 미리 정의되어 있다.

판다스 객체의 데이터를 확인하는 다양한 방법 소개

1. DataFrame 만들기

csv 파일 불러오기

df = pd.read_csv('weather.csv')

df

2. df.shape

(행, 열) 크기 확인

df.shape

.shape 속성을 이용하면 데이터의 (행, 열) 크기를 확인한다.

3. df.info()

데이터의 전체적인 구조 출력

df.info()

.info() 함수는 데이터에 대한 전반적인 정보를 나타낸다.

df를 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형 등을 출력해 준다.

데이터 개수 n = 3653 entry, 행 인덱싱 번호 0 to 3652
열 변수 형식 출력 : 실수 float, 문자열 object
결측치 개수가 나타남 : max_wind, mean_wind 변수에는 결측치가 없음

4. df.head() / df.tail()

데이터를 잘 불러왔는지 확인하기 위해 앞 부분과 마지막 부분을 확인한다.

상위 N행 살펴보기

df.head()

하위 N행 살펴보기

df.tail(3)

.head() 함수와 .tail() 함수는 불러온 데이터의 상/하위 5개의 행을 출력한다.

괄호안에 원하는 숫자를 넣는다면 그 숫자만큼 행을 출력한다.

5. df.index / df.columns

인덱스(행 이름)와 열의 레이블(컬럼 이름)을 출력하려면, .index와 .columns를 사용한다.

인덱스 출력

df.index

데이터프레임의 인덱스(행 이름)을 반환한다. 인덱스를 따로 지정하지 않았기 때문에 0부터 시작하는 인덱스가 부여되었다.

컬럼 출력

df.columns

.columns 속성을 이용하면 해당 데이터프레임을 구성하는 컬럼명을 확인한다.

이 기능은 컬럼명을 변경할 때도 유용하게 사용된다.

6. df.describe()

요약통계량 확인

df.describe()

.describe() 함수는 데이터의 컬럼별 요약 통계량을 나타낸다.

기온(temp) 컬럼의 평균 출력

df['temp'].mean()

mean(), max(), median() 등 개별 함수를 사용하여 통계량을 계산할 수도 있다.

7. df.sort_values()

.sort_values()를 사용해서 데이터 크기순으로 정렬한다. 예제에서는 두 번째 열의 값의 크기에 따라 DataFrame을 정렬했다.

함수 형식

DataFrame.sort_values(by = [ '정렬변수', '정렬변수2',], ascending = False, inplace = True)

1. by = [ ] : by = 을 사용하지 않아도 된다.
2. inplace = True : 정렬 결과가 동일 데이터프레임이름으로 저장된다.
3. ascending = True : 디폴트이므로 오름차순 정렬이면 사용하지 않아도 된다. 단, 내림차순이면 ascending = False 사용한다.

최대풍속(max_wind) 컬럼의 값 크기에 따라 오름차순으로 정렬

df.sort_values(by = 'max_wind')

최대풍속(max_wind) 컬럼의 값 크기에 따라 내림차순으로 정렬

df.sort_values(by = 'max_wind', ascending = False)

8. df.value_counts()

빈도 분석 출력

bank = pd.read_csv('bank.csv')

print(bank['job'].value_counts())

print()

print(bank['job'].value_counts(ascending=True))

범주형 변수의 빈도분석 결과를 출력한다. 즉, 어떤 컬럼의 unique value들의 개수를 구한다.

9. df.unique()

column의 고유값 출력

bank['job'].unique()

데이터가 어떤 구성으로 이루어져 있는지 확인하려면, .unique()로 해당 열의 고유값을 볼 수 있다.

본 게시글은 상업적 목적이 아닌 학습용 게시글임을 밝힙니다.

저작자표시 비영리 변경금지

'PYTHON > PANDAS' 카테고리의 다른 글

판다스 데이터 선택 (0)	2024.02.29
판다스 객체 생성 (1)	2024.02.29
PANDAS 기초 문법 정리1_PANDAS란? (0)	2024.01.22

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

mk 공부 정리

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문