[플레이데이터 빅데이터 부트캠프]머신러닝 & 딥러닝 회귀(Regression)(2)

로지스틱 회귀

  • 선형 회귀 방식을 이용한 이진 분류 알고리즘
  • 분류 레이블 : 0 or 1
  • 0~1 범위를 예측 결과로 가지는 모델 필요
    • Sigmoid 함수를 활용해 타깃값에 포함될 확률을 예측
  • Logistic, sigmoid 함수
    • S자 모양의 함수

시그모이드 함수

함수값을 0아니면 1에 가까워지도록 하여, 이진 분류하는데 많이 쓰인다.

로지스틱 회귀 실습

위스콘신 유방암 데이터

위스콘신 유방암 데이터는 sklearn API에 내장되어 있는 예시 데이터이다.

우선 위스콘신 유방암 데이터를 가지고, 데이터프레임을 만들어 보자.

만든 데이터프레임의 정보를 살펴보니,  30가지의 요인들과 이 환자가 악성인지 양성인지 가리키는 target 값이 들어있었다.

모델 학습 및 평가

97.9% 확률로 잘 예측하였다. 이제 데이터를 scailing하여 정확도를 좀 더 높여 보자.

데이터 분포도를 살펴보면, 피쳐값들이 굉장히 불균형하게 분포되어 있는 것을 확인할 수 있다.

 피쳐들을, MinMaxScaler로 scailing(0~1 사이로 스케일링)을 하여, 정확도를 향상시켜 보자.

※주의 타겟값은 스케일링 하지 않는다.

MinMaxScaler

MinmaxScaler로 Scailing한 후, 모델 학습 및 평가

피쳐값들을 scailing한 뒤, 이전 방식과 같이 LogisticRegression으로 모델로 학습하였다.

모델을 학습하고 평가해 보니, 정확도가 99.3%로 성능이 훨씬 더 상승한 것을 확인할 수 있었다.