본문 바로가기

데이터 전처리1

머신러닝 기초 (5) - Data Preprocessing 핵심 전략 우리가 주로 접하게 되는 Kaggle이나 기타 예제 데이터들은 이미 데이터가 정제된 상태로 아주아주 예쁜 데이터입니다. 하지만 실제 우리가 맞닥뜨리게 되는 데이터는 굉장히 raw~ 날 것입니다. 그래서 데이터를 정제하고 분석하기 위한 형태로 만드는데 많은 시간을 할애하게 됩니다. 앞에서 Pandas를 통해 정제된 데이터를 처리하는 방법에 대해서 다루었다면 이번에는 날 것의 데이터(?)를 어떻게 분석을 위한 데이터로 만드는지 한 단계 level을 내려와서 데이터 전처리에 대해서 다루어보고자 합니다. 앞에서 다루었던 Pandas의 여러 기능들을 사용한다면 이 장에서 배울 scaling 기법 등을 적용하기 훨씬 수월합니다. 하지만 시스템의 자동화 측면을 생각했을 때 우리는 Deployment(배치)를 항상 생.. 2018. 4. 3.

이전 1 다음

티스토리툴바