본문 바로가기

Python 입문

Pandas 연습

1. Pandas란?

파이선에서 사용되는 데이터 라이브러리

관계형 데이터를 행과 열로 구성된 객체를 만들어 준다.

불러온 데이터를 다루기 쉽게 도와주는 도구이다.

 

여기에서 '라이브러리'라는 말을 100% 이해한 것 같지는 않지만,

아마도 무수한 데이터의 집합(도서관에 꽂힌 수많은 책들)을 나타내는 단어로 추측된다.

'객체'도 확실하게 알 수는 없지만, 데이터를 빠르게 불러올 수 있도록 작은 단위로 저장해둔다는 의미 같다.

 

나중에 파이선 강의가 끝났을 때 한 번 더 찾아보기로 한다.

 

2. 데이터 불러오기

import pandas as pd

chicken07 = pd.read_csv('./data/chicken_07.csv')

 

먼저 Pandas 라는 것을 불러온다.

그리고 data 폴더에 저장해둔 chicken07.csv 파일을 pd.read_csv() 함수로 불러온다.

참고로 pd.read_ 여기서 탭 하면 많은 확장자 중에서 선택할 수 있다.

 

3. 데이터 확인

chicken07['성별']

성별 데이터를 불러와 본다. 처음 5개, 마지막 5개의 데이터를 확인할 수 있다.

 

set(chicken07['성별'])

set() 함수로 성별 데이터의 중복 값을 제거한다. 남/여/남자/여자 등으로 다르게 작성된 경우, 확인할 수 있다.

 

len(set(chicken07['성별']))

len() 함수로 데이터의 개수를 확인한다. 남/여/남자/여자 등으로 작성된 경우, 결과값은 4

 

4. 데이터 합치기

chicken_data = pd.concat([chicken07,chicken08,chicken09])

Pandas에서 제공하는 concat 함수를 사용해서, 세 개의 데이터를 합친다.

함수니까 () 괄호를 썼고, 데이터를 묶기 위해 [] 대괄호를 쓴 것도 잊지 말자.

 

세 개의 데이터를 합쳐서 chicken_data 라고 부르기 위해, 제일 앞에 문구는 마지막에 작성했다.

함수 작성 -> 데이터 명칭 작성 -> 전체 명칭 작성

 

5. 데이터 인덱스 값 재설정

chicken_data = chicken_data.reset_index(drop= True)

데이터 인덱스 값 재설정은 reset_index() 함수로 할 수 있다.

 

다만, concat 함수로 데이터를 합치면서, 세 개의 데이터 각각에 있던 기존의 인덱스 값을 지우로 설정해 주어야 한다.

함수 안에 drop= True 문구로 작성한다.

 

인덱스가 다시 설정된 데이터를 chicken_data 라고 부를 것이므로, 제일 앞에 문구는 마지막에 작성했다.

 

index 작성이 안된 채로 데이터가 취합된 경우
세 개의 데이터 각각에 있던 index 값을 초기화(drop= True)하고, index 값을 올바르게 설정한 경우

'Python 입문' 카테고리의 다른 글

데이터 분석1-2. 이탈 분석  (0) 2021.06.26
데이터 분석 1-1. 상권 분석  (0) 2021.06.16
Matplotlib 연습  (0) 2021.05.23
파이선 기초 문법 정리 2  (0) 2021.05.19
파이썬 기초 문법 정리 1  (0) 2021.05.19