Open API는 데이터를 공유하기 위한 목적으로 제공되는 서비스이다. 대부분 API 사용 신청을 해야되고, 키값을 받아와서 요청할 때 키값을 설정해야 사용 가능하다. 회사마다 다르기 때문에 API 사용 설명서를 참조하여서 Open API에 접속할 수 있다. 공공데이터 코로나 시/도 발생현황 import requests url = 'http://openapi.data.go.kr/openapi/service/rest/Covid19/getCovid19SidoInfStateJson' params ={'serviceKey' : 'rnF4yyGFp4RmLHiQ/PXaEmoqBuiQ0mv72GW7vb0hxrgRZqSk/zHAJN0QO5hP79QMhoXZTOwY8fh2cl7BSynbxg==', 'pageNo' : '..
크롤링 웹 크롤링은 기존의 복사본 만들기, 웹 스크래핑은 분석을 위한 특정 데이터를 추출하거나 새로운 것을 만들기를 의미합니다. crawling은 다 긁어오는 것, scraping은 필요한 부분을 잘라오는 것 웹 스크래핑을 수행하기 위해서는 먼저 필요한 정보를 찾는 웹 크롤링이 수행되어야 합니다 웹 사이트에서 내용을 가져오는 방법 텍스트, 영상, 음성, 그림 저작권 문제가 있고, 트래픽을 유발하므로 일반적으로 허용하지 않습니다. 오픈 API를 통해서 가져오는 방법 수집을 허용하기 때문에 회사나 공공기관에서 API가 제공된다. API란? 응용 프로그램에서 사용할 수 있도록, 운영 체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스이다. urllib을 통한 HTTP 통신 파이썬 기본 패..
실습. tips 데이터를 활용해 성별과 전체 결제금액의 상관관계를 시각화해주세요. Barplot과 히스토그램의 차이는 무엇인가? 히스토그램은 하나하나 쌓는게 아니라 Bar Chart처럼 한 묶음으로 표현해준다. import plotly.express as px df = px.data.tips() fig = px.bar(df, x="sex", y="total_bill",color='sex') fig fig = px.histogram(tips, x='sex', y='total_bill, color='sex') Bar Charts를 사용하여 세분화하여 볼 수 있다. 여기서 facet row는 time, facet coloum은 day이다. 즉, 점심, 저녁을 날짜별로 세분화하여 볼 수 있다. fig = px...
PLOTLY 인터랙티브 그래프 생성 dict 형식으로 명령어 작성 JSON 데이터 형식으로 저장 다양한 방식으로 Export 가능 PLOTLY 사용자들이 업로드한 그래프도 사용할 수 있다. Express를 통해서 그리는 방법을 많이 사용한다. Tips 데이터 예시 import plotly.express as px tips = px.data.tips() fig1 = px.scatter(tips, # 데이터명(데이터프레임 형식) x='tip', # x축에 들어갈 컬럼 y='total_bill', # y축에 들어갈 컬럼 color='sex', # 색상 구분 기준이 될 컬럼명 (seaborn의 hue와 같은 역할) marginal_x = 'box', # scatterplot의 옵션 중 하나인 인접 그래프의 스타..
Seaborn matlib에 얹어서 사용한다. 시각화 툴에 좋고, 통계 툴 사용에도 용이하다. import matplotlib.pyplot as plt # 그래프 그리는 용도 import matplotlib.font_manager as fm # 폰트 관련 용도 import seaborn as sns %matplotlib inline # 현재 설치된 폰트 확인해보기 sys_font=fm.findSystemFonts() print(f"sys_font number: {len(sys_font)}") print(sys_font) nanum_font = [f for f in sys_font if 'Nanum' in f] print(f"nanum_font number: {len(nanum_font)}") 넘파이나 판..
EDA(Exploratory Data Analysis) 탐색적 데이터 분석 원 데이터를 가지고 유연하게 데이터를 탐색하고, 데이터의 특징과 구조로부터 얻은 정보를 바탕으로 통계모형을 만드는 분석방법, 주로 빅데이터 분석에 사용된다. EDA의 순서(The process of EDA) 1. 문제 정의 2. 데이터 수집 3. 데이터 전처리 4. 데이터 모델링 5. 시각화 및 탐색 EDA는 두 가지 추론통계(모집단으로부터 추출한 샘플 사용)와 기술통계로 나뉘는데, 빅데이터는 기술통계를 사용한다. EDA시 고려할 점 상관관계와 인과관계는 서로 다르다. 이상치는 분석에 큰 이상을 줄 수 있다. 3차원 시각화보다는 2차원 시각화가 좀 더 좋다.(3차원 시각화는 실제 가치를 낮추는 경향이 있다.) 빅데이터는 단순한 선..