
금융 워크로드를 위한 카카오페이의 AWS기반 MLOps 플랫폼 구축 사례 - 1
2023. 2. 26. 16:52
AWS/AI Innovate
거진 3개월만에 포스팅을 하게 되는 군요...ㅎㅎ 어느덧 6개월간의 AI 데이터 사이언티스트 과정이 끝나고 내일부터 새 직장으로 출근하게 되었습니다. 이제 실전에서 개같이 구르면서 데이터 파이프라인 구축부터 모델 서빙까지 신나는 일들을 하러 갑니다! 그러기 위해서 직장에서 사용하는 서버인 AWS를 통해 구현해야 하기 때문에 AWS AI/ML Innovate 세미나를 보면서 실 서비스에 적용하는 방법을 익히고자 했습니다. (23년 3월 31일까지만 다시보기 제공) 가장 저의 관심을 끌었던 세미나는 핀테크 스타트업에서 일하는 저에게 가장 필요한 내용이라고 느껴진 카카오페이의 세미나였습니다. 아무래도 핀테크는 기술개발에 있어서 여러가지 컴플라이언스 제약사항들이 많다 보니 어떤 식으로 AI 서비스를 구현하는지 ..

[DL] (Prophet) 시계열 예측하기
2022. 11. 16. 16:05
Data Science/Deep Learning
열심히 공부를 하던 중 이번에 데이콘 대회 중에 '2022 UOS 빅데이터 알고리즘 경진대회'가 열린 걸 보게 되었다. 안그래도 비트코인 자동매매 프로그램 개발을 사이드 프로젝트로 진행했던 터라 시계열 예측 모델에 대해선 독학으로 공부했던 기억이 있다. 그래서 망설임없이 바로 참여했다. 우선, 데이터셋부터 확인하였고 다음과 같았다. 각 지역구별로 날짜별 따릉이 사용량 데이터가 주어졌다. 이 외의 다른 데이터는 주어지지 않았고, 외부데이터를 활용할 수는 있으나 data leakage 문제로 인해 test 시에는 외부데이터 활용을 할 수 없다고 한다. 그렇기 때문에 되도록이면 주어진 데이터로만 해결해야 한다고 판단했고, 망설임 없이 지역구별 Prophet 모델링을 시작했다. 기본 모델링 코드는 다음과 같이 ..

[ML] Model Evaluation
2022. 11. 10. 21:17
Data Science/Machin Learning
모델링을 하고 난 뒤에 항상 수반되어야 하는 것은 모델의 성능을 평가하는 것이다. 성능 평가를 하기 위해서는 기준이 필요하기 때문에 목적에 따라 다양한 평가지표를 활용하여 성능평가를 진행한다. 이때, 회귀모델과 분류모델의 평가지표가 다르다. 분류모델 평가지표 먼저 분류모델의 평가지표를 알아보도록 하자. 분류모델도 두가지로 나눌 수 있는데, 이진분류모델과 다중분류모델로 나눌 수 있다. 이진분류모델 이 중 이진분류모델의 평가지표는 혼동행렬(Confusion Matrix)을 필수적으로 이해해야 한다. 코로나19를 예시로 간단하게 설명하자면, Actual : 실제 감염여부 / Predicted : 검사결과로 이해하면 된다. 그러면, TP : 실제 감염되었고, 검사결과도 양성인 경우 FP : 실제 감염되지 않았지..

[ML] Feature Engineering
2022. 11. 9. 21:47
Data Science/Machin Learning
데이터를 분석의 목적에 맞게 가공하는 과정 머신러닝의 성능을 좌우하는 가장 큰 작업이 바로 피쳐 엔지니어링이다. 딥러닝에서는 피처엔지니어링마저 모델에 맡겨버리기 때문에 필요가 없어지지만, 머신러닝 모델들은 그렇지 못하기 때문에 피처엔지니어링이 필수라고 할 수 있다. 머신러닝은 사람이 기계에게 데이터를 가르치는 과정이기 때문에 기계가 잘 학습할 수 있도록 잘 가공하는 것이 최종 모델의 성능을 높인다. 어떤 특징을 추출하느냐는 모델링을 통한 피드백과 분석가의 직관에 의해 이루어진다. 물론, 잘못된 피처를 선택할 시에는 반대급부로 성능저하를 불러올 수 있기 때문에 Domain Knowledge가 굉장히 중요하다. 피처엔지니어링에는 대표적으로 다음과 같은 4가지 과정을 검토해봐야 한다. 차원의 저주 상관관계 분..

[ML] (Clustering)K-means Clustering
2022. 11. 7. 20:19
Data Science/Machin Learning
목표 데이터가 없는 비슷한 데이터끼리 묶는 방법 일반적으로 회귀, 분류 문제에서는 추정해야하는 목표 데이터가 라벨링되어있는 데이터를 가지고 모델링을 진행한다. 이를 Supervised Learning이라고 한다. 이에 반해 클러스터링은 명확한 타겟 데이터가 없는 상황에서 비슷한 특징을 가지는 object끼리 구분짓기 위한 모델이다. 지도데이터가 없기 때문에 Unsupervised Learning이라고 부른다. Clustering Algorithm 그룹을 나누는 기준과 나누는 방법에 따라 여러가지 알고리즘으로 구분되며, 다음과 같은 알고리즘들이 존재한다. K-means Clustering Hierarchical Agglomerative Clustering Mean-Shift Clustering EM(Exp..

[ML] (Classification) Linear Classification
2022. 10. 28. 16:03
Data Science/Machin Learning
Finally..! 아기다리 고기다리던 부트캠프의 머신러닝 수업이 시작되었다. 머신러닝 모델들의 이론적인 백그라운드에 대해 관심이 많아 수업을 들으면서 정리해보고자 모델에 관련된 포스팅을 시리즈로 연재하고자 한다. 머신러닝을 하는 가장 큰 이유는 뭐니뭐니해도 분류와 예측이 아닐까 싶다. 딥러닝에서는 여러가지 것들을 할 수 있지만, 머신러닝은 우리가 연역적으로 감당하기 힘든 수준의 양 또는 차원의 데이터를 다루기 위해 활용하는 보조 툴이기 때문에 분류와 예측이 메인이 되는 것은 어찌보면 당연해보인다. 그렇기에 이번시리즈의 앞부분은 분류모델들에 대해서 알아보는 시간을 가져보도록 하겠다. 오늘은 가장 기본적인 분류모델인 Linear Classifier에 대해서 알아보도록 하자. Linear Classifier..