
[ML] Feature Engineering
2022. 11. 9. 21:47
Data Science/Machin Learning
데이터를 분석의 목적에 맞게 가공하는 과정 머신러닝의 성능을 좌우하는 가장 큰 작업이 바로 피쳐 엔지니어링이다. 딥러닝에서는 피처엔지니어링마저 모델에 맡겨버리기 때문에 필요가 없어지지만, 머신러닝 모델들은 그렇지 못하기 때문에 피처엔지니어링이 필수라고 할 수 있다. 머신러닝은 사람이 기계에게 데이터를 가르치는 과정이기 때문에 기계가 잘 학습할 수 있도록 잘 가공하는 것이 최종 모델의 성능을 높인다. 어떤 특징을 추출하느냐는 모델링을 통한 피드백과 분석가의 직관에 의해 이루어진다. 물론, 잘못된 피처를 선택할 시에는 반대급부로 성능저하를 불러올 수 있기 때문에 Domain Knowledge가 굉장히 중요하다. 피처엔지니어링에는 대표적으로 다음과 같은 4가지 과정을 검토해봐야 한다. 차원의 저주 상관관계 분..