[플레이데이터 빅데이터 부트캠프]머신러닝 & 딥러닝 회귀(Regression)(2)

함수값을 0아니면 1에 가까워지도록 하여, 이진 분류하는데 많이 쓰인다.

위스콘신 유방암 데이터는 sklearn API에 내장되어 있는 예시 데이터이다.

우선 위스콘신 유방암 데이터를 가지고, 데이터프레임을 만들어 보자.

만든 데이터프레임의 정보를 살펴보니, 30가지의 요인들과 이 환자가 악성인지 양성인지 가리키는 target 값이 들어있었다.

97.9% 확률로 잘 예측하였다. 이제 데이터를 scailing하여 정확도를 좀 더 높여 보자.

데이터 분포도를 살펴보면, 피쳐값들이 굉장히 불균형하게 분포되어 있는 것을 확인할 수 있다.

피쳐들을, MinMaxScaler로 scailing(0~1 사이로 스케일링)을 하여, 정확도를 향상시켜 보자.

※주의 타겟값은 스케일링 하지 않는다.

피쳐값들을 scailing한 뒤, 이전 방식과 같이 LogisticRegression으로 모델로 학습하였다.

모델을 학습하고 평가해 보니, 정확도가 99.3%로 성능이 훨씬 더 상승한 것을 확인할 수 있었다.

[플레이데이터 빅데이터 부트캠프]머신러닝 & 딥러닝 PCA와 비지도학습 (0)	2022.08.06
[플레이데이터 빅데이터 부트캠프]머신러닝 & 딥러닝 Ensemble (0)	2022.08.05
[플레이데이터 빅데이터 부트캠프]머신러닝 & 딥러닝 회귀(Regression)(1) (0)	2022.08.04
[플레이데이터 빅데이터 부트캠프]머신러닝 & 딥러닝 타이타닉 데이터(캐글 튜토리얼) (0)	2022.08.04
[플레이데이터 빅데이터 부트캠프]머신러닝 & 딥러닝 머신 러닝 기초(2) (0)	2022.08.03

티스토리툴바