실습. tips 데이터를 활용해 성별과 전체 결제금액의 상관관계를 시각화해주세요. Barplot과 히스토그램의 차이는 무엇인가? 히스토그램은 하나하나 쌓는게 아니라 Bar Chart처럼 한 묶음으로 표현해준다. import plotly.express as px df = px.data.tips() fig = px.bar(df, x="sex", y="total_bill",color='sex') fig fig = px.histogram(tips, x='sex', y='total_bill, color='sex') Bar Charts를 사용하여 세분화하여 볼 수 있다. 여기서 facet row는 time, facet coloum은 day이다. 즉, 점심, 저녁을 날짜별로 세분화하여 볼 수 있다. fig = px...
PLOTLY 인터랙티브 그래프 생성 dict 형식으로 명령어 작성 JSON 데이터 형식으로 저장 다양한 방식으로 Export 가능 PLOTLY 사용자들이 업로드한 그래프도 사용할 수 있다. Express를 통해서 그리는 방법을 많이 사용한다. Tips 데이터 예시 import plotly.express as px tips = px.data.tips() fig1 = px.scatter(tips, # 데이터명(데이터프레임 형식) x='tip', # x축에 들어갈 컬럼 y='total_bill', # y축에 들어갈 컬럼 color='sex', # 색상 구분 기준이 될 컬럼명 (seaborn의 hue와 같은 역할) marginal_x = 'box', # scatterplot의 옵션 중 하나인 인접 그래프의 스타..
Seaborn matlib에 얹어서 사용한다. 시각화 툴에 좋고, 통계 툴 사용에도 용이하다. import matplotlib.pyplot as plt # 그래프 그리는 용도 import matplotlib.font_manager as fm # 폰트 관련 용도 import seaborn as sns %matplotlib inline # 현재 설치된 폰트 확인해보기 sys_font=fm.findSystemFonts() print(f"sys_font number: {len(sys_font)}") print(sys_font) nanum_font = [f for f in sys_font if 'Nanum' in f] print(f"nanum_font number: {len(nanum_font)}") 넘파이나 판..
EDA(Exploratory Data Analysis) 탐색적 데이터 분석 원 데이터를 가지고 유연하게 데이터를 탐색하고, 데이터의 특징과 구조로부터 얻은 정보를 바탕으로 통계모형을 만드는 분석방법, 주로 빅데이터 분석에 사용된다. EDA의 순서(The process of EDA) 1. 문제 정의 2. 데이터 수집 3. 데이터 전처리 4. 데이터 모델링 5. 시각화 및 탐색 EDA는 두 가지 추론통계(모집단으로부터 추출한 샘플 사용)와 기술통계로 나뉘는데, 빅데이터는 기술통계를 사용한다. EDA시 고려할 점 상관관계와 인과관계는 서로 다르다. 이상치는 분석에 큰 이상을 줄 수 있다. 3차원 시각화보다는 2차원 시각화가 좀 더 좋다.(3차원 시각화는 실제 가치를 낮추는 경향이 있다.) 빅데이터는 단순한 선..
행렬의 곱셈 전편에 이어 행렬의 곱셈에 관해서 포스팅하겠습니다. 행렬의 곱셈에는 몇가지 규칙이 있습니다. 즉, 곱셈을 할 때 첫번째 행렬의 열과 두 번 째 행렬의 행의 차원이 같아야 합니다. 구체적으로 무슨 말인지 아래의 그림에서 알아보겠습니다. 즉, 행렬의 곱셈이 가능하게 하려면, 오른쪽의 행렬을 (3x1)이나 (3x2) 행렬로 바꿔줘야 합니다. 즉 1 X 3 3 X 1 1 X 3 3 X 1 이 되어야지 행렬 곱셈이 가능해 집니다. 예시로 2x2 행렬로 행렬의 곱을 해보겠습니다. 위와 같은 결과값이 나옵니다. ※참고 : 일반 숫자들의 곱셈과는 달리 행렬의 곱셈에서는 순서에 따라 값이 달라집니다. 넘파이에서는 실제 행렬 연산과 달리 폭넓은 브로드캐스팅을 제공해줍니다. # n차원 x 1차원 a = np.a..
Drop 데이터프레임의 칼럼과 로우를 삭제하는데 사용되는 메소드이다. df2 = df.copy() df2.drop(['지역'], axis=1, inplace=True) ※ axis = 0일 때, 로우를 의미하고, axis = 1일 때, 칼럼을 의미한다. Function Apply 맵 함수와 비슷한 방법론이다. 데이터프레임에 일관적으로 특정한 함수를 적용하고 싶을 때 사용한다. import numpy as np import pandas as pd data = { 'Sex': ['Male', 'Female', 'Male'], 'Age': [25, 28, 22], 'Score': [95, 85, 75]} df = pd.DataFrame(data) def func(x): print('함수 호출됨') print(..