판다스(Pandas)란?
판다스란 panel data system에서 유래했습니다.
패널 데이터는 여러 개체들을 시간을 두고 추적하여 얻는 데이터를 말합니다.
판다스의 특징
- Numpt를 내부적으로 활용합니다.
- 많은 양의 데이터를 로드해서 분석하는데 최적화되어 있습니다.
- 데이터분석에 특화된 데이터 구조를 제공합니다.
- 다양한 데이터 분석 함수를 제공합니다.
- 다른 시스템에 쉽게 연결할 수 있습니다.
데이터프레임(DataFrame)
- DataFrame:엑셀과 같이, 인덱스(index), 변수(column), 값(value)로 이루어진 구조. 판다스의 특수한 자료형이다.
- 대용량 데이터를 빠르고 쉽게 다룰 수 있다.
- Numpy 라이브러리에서 지원하는 수학 및 통계 연산을 그대로 이용할 수 있다.
- 2차원 구조로 직관적이다.
데이터프레임 만들기
데이터 원본 복사
강사님께서 데이터 원본 손실을 막기 위해 작업 전에 데이터를 복사해 놓고 시작하면 좋다고 하셨다.
data.copy() : 판다스는 기본적으로 딥카피를 제공한다.
df_copy = data.copy()
또한 판다스에 제공하는 inplace=True라는 파라메터를 이용할 수 있다.
inplace=True를 주면 변수 지정을 따로 하지 않아도, 변수값이 바뀐다.
df['Sex'].replace(['M', 'F'], ['Male', 'Female'], inplace=True)
이런식으로 지정하면 바꾼 변수 값 그대로 데이터에 저장할 수 있다.
인덱스명 지정
데이터프레임 인덱스명을 지정하여 아래와 같이 자유롭게 바꿀 수 있다.
df = pd.DataFrame(data, index=['row1', 'row2', 'row3'])
판다스의 인덱스와 칼럼 두 개 다 동시에 바꾸려면, 아래와 같이 작성할 수 있다.
df = pd.DataFrame(data2, index= ['row1', 'row2', 'row3'], columns=['Name', 'Age', 'Score'])
'플레이데이터 빅데이터 부트캠프 12기 > Python' 카테고리의 다른 글
[플레이데이터 빅데이터 부트캠프]Python Pandas(3) (0) | 2022.07.21 |
---|---|
[플레이데이터 빅데이터 부트캠프]Python Pandas(2) (0) | 2022.07.21 |
[플레이데이터 빅데이터 부트캠프]Python 3차원 배열 (0) | 2022.07.20 |
[플레이데이터 빅데이터 부트캠프]Python list vs ndarray (0) | 2022.07.19 |
[플레이데이터 빅데이터 부트캠프]Python Enumerate & Zip (0) | 2022.07.17 |