상세 컨텐츠

본문 제목

판다스 객체 생성

PYTHON/PANDAS

by mk coding 2024. 2. 29. 13:41

본문

판다스의 기본 객체인 Series와 DataFrame을 생성하는 다양한 방법

  • Series : 레이블을 갖는 1차원 배열
  • DataFrame : 레이블을 갖는 행과 열을 갖는 2차원 배열

Pandas 모듈 데이터는 Series (1개 변수)와 DataFrame(2개 이상의 변수)로 나뉜다. 

외부 데이터를 Pandas 모듈로 읽어 들이면 자동으로 DataFrame으로 된다. 

Pandas 데이터프레임을 행, 열, 그리고 형식 기준으로 다룬다. 

1. Series와 DataFrame

  • Series : 다양한 자료형을 담을 수 있는 1차원 배열. 엑셀 문서의 하나의 column과 같다. Index라는 레이블을 가진다.
  • DataFrame : 행과 열을 갖는 2차원의 자료형. 여러 개의 Series가 모이면 DataFrame을 재구성한다. Index와 Key, 그리고 Value들로 구성된다. 

2. Series 만들기 

정수형 Series 만들기 

score = pd.Series([95, 90, 85, 90, 95])
score

Series는 동알힌 유형의 데이터를 저장하는 1차원 배열이다. Series()에 값들의 리스트를 입력해서 Series를 만들면, Pandas가 정수 인덱스를 자동으로 만든다.

실수형 Series 만들기 

s = pd.Series([4, 3.5, 3.8, 3, 3.7])
s

정수와 실수가 함께 있는 리스트를 입력하면 두 자료형을 모두 표현할 수 있는 실수 자료형의 Series가 하나 만들어 진다. 

인덱스 지정

s = pd.Series([90, 80, 95], index = ['A', 'B', 'C'])
s

Series()의 index 키워드를 사용해서 인덱스를 자유롭게 설정한다. 

 

3. DataFrame 만들기 

시리즈들을 모아 하나의 데이터프레임을 만들 수 있다. 

넘파이로 배열 생성

import numpy as np
arr = np.arange(12).reshape(4, 3)
print(arr)
print()
df = pd.DataFrame(arr)
print(df)

넘파이 배열과 딕셔너리 구조를 이용하여 데이터프레임을 생성한다. 

딕셔너리로 배열 생성

df = pd.DataFrame({'name':['장은실', '오경선', '양숙희'],
                   'score':[90, 80, 95],
                   'dept':['com', 'eng', 'math']})
df

딕셔너리의 키가 그대로 DataFrame의 키가 되며, 그 결과로 만들어지는 DataFrame의 열은 서로 다른 자료형(Dtypes)을 갖는다. 

4. csv 활용

판다스가 제공하는 read_csv() 함수를 이용하여 데이터를 DataFrame으로 불러 올 수 있다. 

 

csv 파일 불러오기

df = pd.read_csv('mobile.csv')
df

csv 파일 불러오기 : 인덱스 지정

df = pd.read_csv('mobile.csv', index_col=0)
df

index_col은 인덱스로 사용할 열을 지정한다. index_col = 0으로 지정해서 첫 번째 열이 인덱스가 되었다. 

 

 

 

 

 

 

 

 

본 게시글은 상업적 목적이 아닌 학습용 게시글임을 밝힙니다. 

'PYTHON > PANDAS' 카테고리의 다른 글

판다스 데이터 선택  (0) 2024.02.29
판다스 데이터 확인  (1) 2024.02.29
PANDAS 기초 문법 정리1_PANDAS란?  (0) 2024.01.22

관련글 더보기