
[ML] Model Evaluation
2022. 11. 10. 21:17
Data Science/Machin Learning
모델링을 하고 난 뒤에 항상 수반되어야 하는 것은 모델의 성능을 평가하는 것이다. 성능 평가를 하기 위해서는 기준이 필요하기 때문에 목적에 따라 다양한 평가지표를 활용하여 성능평가를 진행한다. 이때, 회귀모델과 분류모델의 평가지표가 다르다. 분류모델 평가지표 먼저 분류모델의 평가지표를 알아보도록 하자. 분류모델도 두가지로 나눌 수 있는데, 이진분류모델과 다중분류모델로 나눌 수 있다. 이진분류모델 이 중 이진분류모델의 평가지표는 혼동행렬(Confusion Matrix)을 필수적으로 이해해야 한다. 코로나19를 예시로 간단하게 설명하자면, Actual : 실제 감염여부 / Predicted : 검사결과로 이해하면 된다. 그러면, TP : 실제 감염되었고, 검사결과도 양성인 경우 FP : 실제 감염되지 않았지..

[ML] Feature Engineering
2022. 11. 9. 21:47
Data Science/Machin Learning
데이터를 분석의 목적에 맞게 가공하는 과정 머신러닝의 성능을 좌우하는 가장 큰 작업이 바로 피쳐 엔지니어링이다. 딥러닝에서는 피처엔지니어링마저 모델에 맡겨버리기 때문에 필요가 없어지지만, 머신러닝 모델들은 그렇지 못하기 때문에 피처엔지니어링이 필수라고 할 수 있다. 머신러닝은 사람이 기계에게 데이터를 가르치는 과정이기 때문에 기계가 잘 학습할 수 있도록 잘 가공하는 것이 최종 모델의 성능을 높인다. 어떤 특징을 추출하느냐는 모델링을 통한 피드백과 분석가의 직관에 의해 이루어진다. 물론, 잘못된 피처를 선택할 시에는 반대급부로 성능저하를 불러올 수 있기 때문에 Domain Knowledge가 굉장히 중요하다. 피처엔지니어링에는 대표적으로 다음과 같은 4가지 과정을 검토해봐야 한다. 차원의 저주 상관관계 분..

[ML] (Clustering)K-means Clustering
2022. 11. 7. 20:19
Data Science/Machin Learning
목표 데이터가 없는 비슷한 데이터끼리 묶는 방법 일반적으로 회귀, 분류 문제에서는 추정해야하는 목표 데이터가 라벨링되어있는 데이터를 가지고 모델링을 진행한다. 이를 Supervised Learning이라고 한다. 이에 반해 클러스터링은 명확한 타겟 데이터가 없는 상황에서 비슷한 특징을 가지는 object끼리 구분짓기 위한 모델이다. 지도데이터가 없기 때문에 Unsupervised Learning이라고 부른다. Clustering Algorithm 그룹을 나누는 기준과 나누는 방법에 따라 여러가지 알고리즘으로 구분되며, 다음과 같은 알고리즘들이 존재한다. K-means Clustering Hierarchical Agglomerative Clustering Mean-Shift Clustering EM(Exp..

[ML] (Classification) Linear Classification
2022. 10. 28. 16:03
Data Science/Machin Learning
Finally..! 아기다리 고기다리던 부트캠프의 머신러닝 수업이 시작되었다. 머신러닝 모델들의 이론적인 백그라운드에 대해 관심이 많아 수업을 들으면서 정리해보고자 모델에 관련된 포스팅을 시리즈로 연재하고자 한다. 머신러닝을 하는 가장 큰 이유는 뭐니뭐니해도 분류와 예측이 아닐까 싶다. 딥러닝에서는 여러가지 것들을 할 수 있지만, 머신러닝은 우리가 연역적으로 감당하기 힘든 수준의 양 또는 차원의 데이터를 다루기 위해 활용하는 보조 툴이기 때문에 분류와 예측이 메인이 되는 것은 어찌보면 당연해보인다. 그렇기에 이번시리즈의 앞부분은 분류모델들에 대해서 알아보는 시간을 가져보도록 하겠다. 오늘은 가장 기본적인 분류모델인 Linear Classifier에 대해서 알아보도록 하자. Linear Classifier..

AI, 그게 뭔데?
2022. 9. 12. 22:07
Data Science/Machin Learning
(이번 글은 수포자들도 읽을 수 있게끔 아주 기초적인 내용만을 다룹니다.) AI, AI, AI! 소프트뱅크 창립자 손정의 아저씨가 문재인 전 대통령을 만나서 한 말이다. 2000년 초에 김대중 전 대통령을 만났을 때는 '첫째도 둘째도 셋째도 초고속인터넷(브로드밴드)다!' 라고 했던 캐치프라이즈를 키워드만 AI로 바꿔서 얘기하신듯하다. 하긴, 소프트뱅크 후임자도 내쫓으면서 컴백한 이유가 AI때문인 분이니 놀랍지도 않다. 손정의 센세의 안목은 그동안 정말 놀라웠다. 소프트뱅크의 자금규모만 봐도 말을 더 할 필요가 굳이 있을까. 그렇다면, 이 할아버지는 대체 왜! AI가 앞으로의 미래 핵심 키워드라고 생각하는 것이고, 대체 AI가 뭔데 저렇게 난리인지 궁금해서 뒷조사(?)를 좀 하기로 했다. AI가 대체 뭐야..

Macbook M1 Tensorflow 설치하기(for jupyter notebook)
2022. 9. 12. 22:02
Data Science/Machin Learning
정든 내 창업기업을 떠나보내면서 새로운 도전에 나선 첫걸음은 바로 ML 시작하기! 데이터 사이언티스트로 새로운 시작을 하기 위해 예전에 배웠던 텐서플로우를 설치하는 것부터 시작하였다. 새 시작을 위해 구매한 M1 Macbook Air는 아직 낯설기만 하다. Window에 길들여진지 너무 오래되어서 그런가.. 옛날에 분명 Ubuntu로 개발을 배우긴 했지만 그건 벌써 6~7년전 이야기라서 가물가물하다ㅎㅎ 컴공수업 듣던 시절에 개발환경 세팅했던 기억을 더듬어 각종 모듈과 프로그램을 pip install 로 다운로드하였다. 마지막으로 야심차게 pip install tensorflow 을 했는데 이게 웬걸 jupyter notebook에서 import가 되지 않는 것이다! 이 문제를 해결하려고 하루종일 뻘짓을 ..