1. Pandas란?
파이선에서 사용되는 데이터 라이브러리
관계형 데이터를 행과 열로 구성된 객체를 만들어 준다.
불러온 데이터를 다루기 쉽게 도와주는 도구이다.
여기에서 '라이브러리'라는 말을 100% 이해한 것 같지는 않지만,
아마도 무수한 데이터의 집합(도서관에 꽂힌 수많은 책들)을 나타내는 단어로 추측된다.
'객체'도 확실하게 알 수는 없지만, 데이터를 빠르게 불러올 수 있도록 작은 단위로 저장해둔다는 의미 같다.
나중에 파이선 강의가 끝났을 때 한 번 더 찾아보기로 한다.
2. 데이터 불러오기
import pandas as pd
chicken07 = pd.read_csv('./data/chicken_07.csv')
먼저 Pandas 라는 것을 불러온다.
그리고 data 폴더에 저장해둔 chicken07.csv 파일을 pd.read_csv() 함수로 불러온다.
참고로 pd.read_ 여기서 탭 하면 많은 확장자 중에서 선택할 수 있다.
3. 데이터 확인
chicken07['성별']
성별 데이터를 불러와 본다. 처음 5개, 마지막 5개의 데이터를 확인할 수 있다.
set(chicken07['성별'])
set() 함수로 성별 데이터의 중복 값을 제거한다. 남/여/남자/여자 등으로 다르게 작성된 경우, 확인할 수 있다.
len(set(chicken07['성별']))
len() 함수로 데이터의 개수를 확인한다. 남/여/남자/여자 등으로 작성된 경우, 결과값은 4
4. 데이터 합치기
chicken_data = pd.concat([chicken07,chicken08,chicken09])
Pandas에서 제공하는 concat 함수를 사용해서, 세 개의 데이터를 합친다.
함수니까 () 괄호를 썼고, 데이터를 묶기 위해 [] 대괄호를 쓴 것도 잊지 말자.
세 개의 데이터를 합쳐서 chicken_data 라고 부르기 위해, 제일 앞에 문구는 마지막에 작성했다.
함수 작성 -> 데이터 명칭 작성 -> 전체 명칭 작성
5. 데이터 인덱스 값 재설정
chicken_data = chicken_data.reset_index(drop= True)
데이터 인덱스 값 재설정은 reset_index() 함수로 할 수 있다.
다만, concat 함수로 데이터를 합치면서, 세 개의 데이터 각각에 있던 기존의 인덱스 값을 지우로 설정해 주어야 한다.
함수 안에 drop= True 문구로 작성한다.
인덱스가 다시 설정된 데이터를 chicken_data 라고 부를 것이므로, 제일 앞에 문구는 마지막에 작성했다.
'Python 입문' 카테고리의 다른 글
데이터 분석1-2. 이탈 분석 (0) | 2021.06.26 |
---|---|
데이터 분석 1-1. 상권 분석 (0) | 2021.06.16 |
Matplotlib 연습 (0) | 2021.05.23 |
파이선 기초 문법 정리 2 (0) | 2021.05.19 |
파이썬 기초 문법 정리 1 (0) | 2021.05.19 |