후롤로그

플레이데이터 빅데이터 부트캠프 12기/Python · 2022. 7. 21. fullscreen 넓게보기

[플레이데이터 빅데이터 부트캠프]Python Pandas(1)

판다스(Pandas)란?

판다스란 panel data system에서 유래했습니다.

패널 데이터는 여러 개체들을 시간을 두고 추적하여 얻는 데이터를 말합니다.

판다스의 특징

Numpt를 내부적으로 활용합니다.
많은 양의 데이터를 로드해서 분석하는데 최적화되어 있습니다.
데이터분석에 특화된 데이터 구조를 제공합니다.
다양한 데이터 분석 함수를 제공합니다.
다른 시스템에 쉽게 연결할 수 있습니다.

데이터프레임(DataFrame)

DataFrame:엑셀과 같이, 인덱스(index), 변수(column), 값(value)로 이루어진 구조. 판다스의 특수한 자료형이다.
대용량 데이터를 빠르고 쉽게 다룰 수 있다.
Numpy 라이브러리에서 지원하는 수학 및 통계 연산을 그대로 이용할 수 있다.
2차원 구조로 직관적이다.

데이터프레임 만들기

데이터 원본 복사

강사님께서 데이터 원본 손실을 막기 위해 작업 전에 데이터를 복사해 놓고 시작하면 좋다고 하셨다.

data.copy() : 판다스는 기본적으로 딥카피를 제공한다.

df_copy = data.copy()

또한 판다스에 제공하는 inplace=True라는 파라메터를 이용할 수 있다.

inplace=True를 주면 변수 지정을 따로 하지 않아도, 변수값이 바뀐다.

df['Sex'].replace(['M', 'F'], ['Male', 'Female'], inplace=True)

이런식으로 지정하면 바꾼 변수 값 그대로 데이터에 저장할 수 있다.

인덱스명 지정

데이터프레임 인덱스명을 지정하여 아래와 같이 자유롭게 바꿀 수 있다.

df = pd.DataFrame(data, index=['row1', 'row2', 'row3'])

판다스의 인덱스와 칼럼 두 개 다 동시에 바꾸려면, 아래와 같이 작성할 수 있다.

df = pd.DataFrame(data2, index= ['row1', 'row2', 'row3'], columns=['Name', 'Age', 'Score'])

저작자표시

'플레이데이터 빅데이터 부트캠프 12기 > Python' 카테고리의 다른 글

[플레이데이터 빅데이터 부트캠프]Python Pandas(3) (0)	2022.07.21
[플레이데이터 빅데이터 부트캠프]Python Pandas(2) (0)	2022.07.21
[플레이데이터 빅데이터 부트캠프]Python 3차원 배열 (0)	2022.07.20
[플레이데이터 빅데이터 부트캠프]Python list vs ndarray (0)	2022.07.19
[플레이데이터 빅데이터 부트캠프]Python Enumerate & Zip (0)	2022.07.17

플레이데이터 빅데이터 부트캠프 12기/Python 관련 글

더 보기

티스토리툴바