머신러닝 성능 평가 지표를 정리하기에 앞서 먼저 실제 정답과 분류 정답에 관해서 그림으로 정리하고 가보자. 여기서 제대로 맞추었을 경우 True이고 못 맞추었을 때는 False이다. True 안에서도 긍정 값을 맞추었을 때 True Positive, 부정 값을 맞추었을 때, True Negative 값이라고 정의한다. 정확도 : Accuracy Accuracy는 올바르게 예측된 데이터의 수를 전체 데이터의 수로 나눈 값입니다. 즉, 아래와 같은 수식으로 나타낼 수 있다. 재현율 : Recall accuracy는 데이터에 따라 매우 잘못된 통계를 나타낼 수 있다. 예를 들면 눈 내리는 날을 예측하는 모델을 만들었다고 가정해보자. 계속 Negative로 예측해도 꽤나 높은 accuracy를 가질 수 있을 것..
캐글에서 미니 프로젝트를 가져왔다. https://www.kaggle.com/datasets/sharmastic/gender-by-name Gender By Name Dataset for classification of Gender using name and corresponding attributes www.kaggle.com 이름을 가지고 성별을 맞추는 문제였다. 처음에는 생각보다 쉽다고 여겼지만, 만만치 않았다. 사람을 이름을 컴퓨터가 인식할 수 있도록, 인코딩 하는 것 자체가 쉽지 않았다. 우리가 베이스라인으로 삼은 코드는 a에서 b까지 원핫인코딩 한 다음에, 중복된 이름을 제외하고 알파벳 하나하나에 인코딩 값을 부여하였다. 우리가 베이스라인으로 삼은 코드를 바탕으로, 다시 코딩 하려고 하였지만,..
kowiki를 사용한 텍스트 분석 Corpus란? 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. (모두의 말 뭉치를 참고해 보자.) 파일 확인 kowiki 말뭉치에는 '지미 카터', '수학', '수학 상수', '문학' 등 여러 주제별로 설명글이 들어가 있다. Word Tokenizer 문장을 단어별로 나누기 우선 정규표현식 사용법을 익혀 보자. re.sub (정규 표현식, 치환 문자, 대상 문자열) 정규 표현식 - 검색 패턴을 지정 치환 문자 - 변경하고 싶은 문자 대상 문자열 - 검색 대상이 되는 문자열 예시) 첫 번째 예시는 문장을 . , ! ? 등을 기준으로 한칸씩 띄어주며 바꿔주고, 아래칸은 . , ! ? 등을 띄어쓰기로 완전히 바꿔준다. 우리는 Word Tokeniz..
RNN(Recurrent Neural Network, 순환신경망) 순서가 있는 데이터를 처리하기 위한 Neural Network이다. 순서가 있는 데이터는 음성, 언어, 주가 등 발생 순서가 중요한 데이터를 의미한다. 문장에서 이전에 발생한 단어를 보고 다음 단어를 예측하는 경우이다. Feed Forward Network 일반적인 구조의 신경망 입력->은닉->출력층으로 이어지는 단방향 구조이다. Recurrent Network 이전 층, 또는 스텝의 출력이 다시 입력으로 연결되는 신경망 구조이다. 각 스텝마다 이전 상태를 기억하는 시스템이다. 시계열(날씨, 주가 등), 자연어와 같이 시간의 흐름에 따라 변화하는 데이터에 적합하다. 동일한 변수를 back propagation through time 하여 ..
Teachable Machine 머신러닝 분야에서 점점 사람이 할 일이 없어지고 있다고 합니다. 마침 강사님께서 Teachable Machine이라는 플랫폼을 추천하셔서 직접 체험해 보았습니다. 프로젝트는 크게 이미지 프로젝트, 오디오 프로젝트, 포즈 프로젝트 이렇게 세 갈래가 있었습니다. 여기서 저는 이미지 프로젝트에서, 기린, 치타, 코끼리, 펭귄 각각 10개의 사진을 삽입하여서, 모델을 학습시켰습니다. 모델 학습 및 저장 이렇게 학습시킨 모델을 직접 웹캠으로 사진을 인식시켜 분류할 수도 있지만, h5 파일로 학습된 모델을도 받을 수 있습니다. 그리고 각각의 분류 모델들의 라벨도 텍스트 파일로 다운 받을 수 있습니다. 학습된 모델 불러오기 및 활용 from tensorflow import keras ..
전이 학습(Transfer Learning) 전이 학습이란? 하나의 작업을 위해 훈련된 모델을 유사 작업 수행 모델의 시작점으로 활용하는 딥러닝 접근법이다. 사전 학습 모델은 ImageNet과 같은 대량의 데이터셋으로 이미 학습이 되어있는 모델을 사용한다. 실습 fashion mnist 모델을 사전학습된 VGG16 모델을 사용하여 평가해보자. VGG16은 16개 층으로 이루어진 VGGNet을 의미한다. VGGNet은 옥스포드 대학의 연구팀 VGG에 의해 개발된 모델로써, 2014년 이미지넷 이미지 인식 대회에서 준우승한 모델이다.(VGG16, VGG19가 존재한다.) Applications - Keras Documentation Applications - Keras Documentation 어플리케이션 ..