[플레이데이터 빅데이터 부트캠프]Python Pandas(1)

판다스(Pandas)란?

판다스란 panel data system에서 유래했습니다.

패널 데이터는 여러 개체들을 시간을 두고 추적하여 얻는 데이터를 말합니다.

판다스의 특징

  • Numpt를 내부적으로 활용합니다.
  • 많은 양의 데이터를 로드해서 분석하는데 최적화되어 있습니다.
  • 데이터분석에 특화된 데이터 구조를 제공합니다.
  • 다양한 데이터 분석 함수를 제공합니다.
  • 다른 시스템에 쉽게 연결할 수 있습니다.

데이터프레임(DataFrame)

  • DataFrame:엑셀과 같이, 인덱스(index), 변수(column), 값(value)로 이루어진 구조. 판다스의 특수한 자료형이다.
  • 대용량 데이터를 빠르고 쉽게 다룰 수 있다.
  • Numpy 라이브러리에서 지원하는 수학 및 통계 연산을 그대로 이용할 수 있다.
  • 2차원 구조로 직관적이다.

데이터프레임 만들기

데이터 원본 복사

강사님께서 데이터 원본 손실을 막기 위해 작업 전에 데이터를 복사해 놓고 시작하면 좋다고 하셨다.

data.copy() : 판다스는 기본적으로 딥카피를 제공한다. 

df_copy = data.copy()

또한 판다스에 제공하는 inplace=True라는 파라메터를 이용할 수 있다.

inplace=True를 주면 변수 지정을 따로 하지 않아도, 변수값이 바뀐다.

df['Sex'].replace(['M', 'F'], ['Male', 'Female'], inplace=True)

이런식으로 지정하면 바꾼 변수 값 그대로 데이터에 저장할 수 있다.

인덱스명 지정

데이터프레임 인덱스명을 지정하여 아래와 같이 자유롭게 바꿀 수 있다.

df = pd.DataFrame(data, index=['row1', 'row2', 'row3'])

판다스의 인덱스와 칼럼 두 개 다 동시에 바꾸려면, 아래와 같이 작성할 수 있다.

df = pd.DataFrame(data2, index= ['row1', 'row2', 'row3'], columns=['Name', 'Age', 'Score'])