본문 바로가기

파이썬 기초

Python Pandas 01. DataFrame 생성하기

Python Pandas 01. DataFrame 생성하기

데이터 프레임(DataFrame)을 생성하는 방법을 알아보기에 앞서 데이터 프레임(DataFrame)에 대해서 추가적인 정보가 필요하시면 아래 링크 참조하세요.

파이썬으로 데이터를 다루기 위해서는 pandas 모듈의 데이터 프레임(DataFrame)의 특성을 이해하는 것이 필수입니다. 

 

파이썬 Pandas 오늘은 DataFrame 제대로 이해하기

데이터 프레임(DataFrame) 객체는 Pandas의 기본 구조체로 행과 열을 가지는 2차원 데이터 구조입니다. 데이터 프레임은 열마다 다른 형태의 데이터를 가질 수 있으며 이전 포스팅에서 다루었던 1차

digital-play.tistory.com

 

1. DataFrame 생성하기

아래와 같은 형태의 DataFrame를 생성해 봅시다. 

pandans dataframe 00

 

1) 각 열의 값을 지정하여 DataFrame를 생성하는 방법

pandans dataframe 01

 

2) 각 행의 값을 지정하여 DataFrame를 생성하는 방법

pandans dataframe 02

 

3) 파일(Excel, CSV, TXT)에서 불러와서 DataFrame를 생성하는 방법

 - CSV 파일로부터 DataFrame를 생성

pandans dataframe 03

☞ pd.read_csv()에서 자주 사용하는 주요 인수는 아래와 같습니다. 

 ▪ sep : 데이터들을 구분하고 있는 구분자를 지정한다. 기본값으로 쉼표( , )이다.

 ▪ header : 열 이름으로 사용할 행 지정. 열(column) 제목으로 사용할 행을 지정한다.

 ▪ index_col : index로 사용할 열의 이름 또는 열의 번호를 지정한다.

   생략하면 원본 데이터에 없는 0부터 시작하는 행 번호가 첫 번째 열에 추가된다.

 ▪ encoding : 파일의 인코딩 지정한다.

 

- Excel 파일로부터 DataFrame를 생성

pandans dataframe 04

pd.read_excel() 실행 시 아래와 같은 ImportError가 발생하면 'openpyxl'라는 모듈을 설치해야 합니다.

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

 

설치 방법은 cmd 창에서 pip install openpyxl 입력 후 엔터 하면 됩니다.

만약, jupyter notebook를 사용 중이면 아래오 같이 빈 Cell에 %pip install openpyxl 입력 후 실행하면 됩니다.

pandans dataframe 05

 

4) 빈 DataFrame를 생성하는 방법

pandans dataframe 06

 

여러 가지 방법으로 데이터 프레임(DataFrame)을 생성하는 방법을 알아보았습니다.