이중 분류 사이킷런에는 0~9까지의 손글씨 이미지를 제공하는 load_digits 데이터 셋이 있다. 해당 데이터셋을 받아와서 데이터를 전처리하고, Decision Tree 분류기로 0과 0이 아닌 이미지로 이중 분류하고, 성능을 평가해보자. 다중 분류 이제 10개 숫자 중 0만을 판별하는 조건을 없애고, 0~9까지 모두 분류하는 모델을 만들고 평가하여 보자. 분류의 갯수를 높이니 정확도가 살짝 낮아진 것을 확인할 수 있다. 모델평가 만약 모델을 검증했을 경우 정확도가 확 떨어질 경우 과적합화 된 경우라고 판단할 수 있다. 테스트 셋은 100만 개 정도 있으면 10% 정도 쓰면 된다. 과소평가란? 진짜 중요한 피쳐들을 떨어뜨려, 데이터를 학습하기에 정확성이 떨어지는 것을 말한다. 교차 검증을 통해 과대평..
머신러닝의 개요 컴퓨터 프로그램이 데이터와 처리 경험을 이용한 학습을 통해 정보 처리 능력을 향상시키는 것 또는 이와 관련된 연구 분야 머신러닝의 기본 모형 가지고 있는 데이터 x를 학습하여 생성한 함수 f(x)에 넣으면, 그 결과로 어떤 문제에 대한 예측치 Y(hat)을 생성하는 메커니즘이다. 머신러닝의 주요 알고리즘 알고리즘 : 어떠한 문제를 해결하기 위한 일련의 절차나 방법 모델(model) : 상관관계를 식으로 표현한 것 (y=ax+b).알고리즘을 통해 적합한 a와 b를 찾는다면 새로운 값에 대한 결과를 예측 가능하다 빅데이터와 머신러닝의 상관관계 빅데이터(big data) : 기존의 데이터베이스로는 수집·저장·분석을 수행하기 어려울 만큼 방대한 양의 데이터(데이터베이스에서 기원) 빅데이터 시스템..
통계 통계란? 관찰(수집)된 자료(현상/상태)에 대해서 통계적(수치적)으로 처리하고 연구하는 과정 기술통계와 추론통계가 있다. 기술통계(서술 통계, Descriptive statistics) 수집한 데이터를 요약, 묘사, 설명하는 통계 기법 자료의 요약된 정보를 대푯값(Representative value)으로 표현 기술 통계는 대체적으로 4가지로 분류가 된다. 통계적 수치(통계량) 중심에 대한 통계 산포에 대한 통계 관계에 대한 통계 형태에 대한 통계 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, ..
Folium Folium 라이브러리를 사용하여 지도 시각화를 할 수 있다. map = folium.Map( location = [37, 127], zoom_start=7 ) 마커 표시하기 for i in maps.index: # print( maps.loc[i, '위도'], maps.loc[i, '경도'] ) folium.Marker( [ maps.loc[i, '위도'], maps.loc[i, '경도']] ).add_to(map) 위와 같이 마커가 표시되는 것을 확인할 수 있다. 이제 행정구역별 코로나 확진자 사망자를 지도 시각화를 통하여 나타내어 보자. 행정구역별 단계 구분도는 국가 지리 정보원에서 다운받을 수 있다. !pip install geopandas import geopandas as gpd ..
Open API는 데이터를 공유하기 위한 목적으로 제공되는 서비스이다. 대부분 API 사용 신청을 해야되고, 키값을 받아와서 요청할 때 키값을 설정해야 사용 가능하다. 회사마다 다르기 때문에 API 사용 설명서를 참조하여서 Open API에 접속할 수 있다. 공공데이터 코로나 시/도 발생현황 import requests url = 'http://openapi.data.go.kr/openapi/service/rest/Covid19/getCovid19SidoInfStateJson' params ={'serviceKey' : 'rnF4yyGFp4RmLHiQ/PXaEmoqBuiQ0mv72GW7vb0hxrgRZqSk/zHAJN0QO5hP79QMhoXZTOwY8fh2cl7BSynbxg==', 'pageNo' : '..
크롤링 웹 크롤링은 기존의 복사본 만들기, 웹 스크래핑은 분석을 위한 특정 데이터를 추출하거나 새로운 것을 만들기를 의미합니다. crawling은 다 긁어오는 것, scraping은 필요한 부분을 잘라오는 것 웹 스크래핑을 수행하기 위해서는 먼저 필요한 정보를 찾는 웹 크롤링이 수행되어야 합니다 웹 사이트에서 내용을 가져오는 방법 텍스트, 영상, 음성, 그림 저작권 문제가 있고, 트래픽을 유발하므로 일반적으로 허용하지 않습니다. 오픈 API를 통해서 가져오는 방법 수집을 허용하기 때문에 회사나 공공기관에서 API가 제공된다. API란? 응용 프로그램에서 사용할 수 있도록, 운영 체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스이다. urllib을 통한 HTTP 통신 파이썬 기본 패..