판다스의 기본 객체인 Series와 DataFrame을 생성하는 다양한 방법
Pandas 모듈 데이터는 Series (1개 변수)와 DataFrame(2개 이상의 변수)로 나뉜다.
외부 데이터를 Pandas 모듈로 읽어 들이면 자동으로 DataFrame으로 된다.
Pandas 데이터프레임을 행, 열, 그리고 형식 기준으로 다룬다.
Series는 동알힌 유형의 데이터를 저장하는 1차원 배열이다. Series()에 값들의 리스트를 입력해서 Series를 만들면, Pandas가 정수 인덱스를 자동으로 만든다.
정수와 실수가 함께 있는 리스트를 입력하면 두 자료형을 모두 표현할 수 있는 실수 자료형의 Series가 하나 만들어 진다.
Series()의 index 키워드를 사용해서 인덱스를 자유롭게 설정한다.
시리즈들을 모아 하나의 데이터프레임을 만들 수 있다.
넘파이 배열과 딕셔너리 구조를 이용하여 데이터프레임을 생성한다.
딕셔너리의 키가 그대로 DataFrame의 키가 되며, 그 결과로 만들어지는 DataFrame의 열은 서로 다른 자료형(Dtypes)을 갖는다.
판다스가 제공하는 read_csv() 함수를 이용하여 데이터를 DataFrame으로 불러 올 수 있다.
index_col은 인덱스로 사용할 열을 지정한다. index_col = 0으로 지정해서 첫 번째 열이 인덱스가 되었다.
본 게시글은 상업적 목적이 아닌 학습용 게시글임을 밝힙니다.
판다스 데이터 선택 (0) | 2024.02.29 |
---|---|
판다스 데이터 확인 (1) | 2024.02.29 |
PANDAS 기초 문법 정리1_PANDAS란? (0) | 2024.01.22 |