본문 바로가기

Data Science/머신러닝 기초5

머신러닝 기초 (5) - Data Preprocessing 핵심 전략 우리가 주로 접하게 되는 Kaggle이나 기타 예제 데이터들은 이미 데이터가 정제된 상태로 아주아주 예쁜 데이터입니다. 하지만 실제 우리가 맞닥뜨리게 되는 데이터는 굉장히 raw~ 날 것입니다. 그래서 데이터를 정제하고 분석하기 위한 형태로 만드는데 많은 시간을 할애하게 됩니다. 앞에서 Pandas를 통해 정제된 데이터를 처리하는 방법에 대해서 다루었다면 이번에는 날 것의 데이터(?)를 어떻게 분석을 위한 데이터로 만드는지 한 단계 level을 내려와서 데이터 전처리에 대해서 다루어보고자 합니다. 앞에서 다루었던 Pandas의 여러 기능들을 사용한다면 이 장에서 배울 scaling 기법 등을 적용하기 훨씬 수월합니다. 하지만 시스템의 자동화 측면을 생각했을 때 우리는 Deployment(배치)를 항상 생.. 2018. 4. 3.
머신러닝 기초 (4) - 데이터 전처리 with Pandas 가천대 최성철 교수님의 '밑바닥부터 시작하는 머신러닝 입문'을 수강하며 노트 필기 및 추가 내용 작성을 목적으로 포스팅합니다. Pandas를 사용하면 엑셀의 스프레드시트나 SQL의 테이블을 사용하듯이 파이썬에서 데이터를 다루는 것처럼 소개하였는데 이전 시간에는 이런 내용을 별로 다루지 않았습니다. Pandas 그 자체에 대해서 파이썬의 관점에서 주로 다루었던 것 같습니다. map 함수나 기타 방법을 통해서 변수를 변환하고 데이터 처리 작업을 하는 것은 일반적으로 우리가 사용하는 방법과는 거리가 멀었던 것은 사실입니다. 이번에는 SQL에서 많이 사용하는 group by 나 merge(JOIN 과 같습니다.), concat(UNION 과 비슷합니다) 같은 Pandas DataFrame의 메소드를 배우게 됩니.. 2018. 1. 27.
머신러닝 기초 (3) - Pandas 복습 가천대 최성철 교수님의 '밑바닥부터 시작하는 머신러닝 입문'을 수강하며 노트 필기 및 추가 내용 작성을 목적으로 포스팅합니다. 이번에 다루는 Pandas는 Python의 엑셀 버전이라고 볼 수 있는데 많은 기능적인 부분들이 엑셀 스프레드시트를 다루는 것과 비슷하고 또 R의 데이터프레임의 개념을 가져왔기 때문에 실제 사용하는 함수나 기능들이 상당히 유사합니다. 그리고 Pandas의 내부적 자료구조는 NumPy로 되어있기 때문에 일부분 많은 것을 NumPy의 그것을 공유합니다. 2017/12/06 - 파이썬으로 데이터분석하자 (4) - Pandas 기본 강의 내용 중에 교수님의 본인의 코드 스타일이 드러나는데 가끔 꿀팁들이 나와 정말 유용하게 사용할 수 있었습니다. apply나 map을 메소드로 하여 사용할.. 2018. 1. 22.
머신러닝 기초 (2) - NumPy 복습 가천대 최성철 교수님의 '밑바닥부터 시작하는 머신러닝 입문'을 수강하며 노트 필기 및 추가 내용 작성을 목적으로 포스팅합니다. 다른 포스팅에서 다루었던 NumPy에 대한 내용이지만 강의를 들으면서 참고할만한 팁(?) 같은 것들을 메모할 것들이 있었고 복습할 요량으로 되짚어 보기 위해서 정리하려고 합니다. NumPy는 딥러닝 프레임 워크에서도 데이터 타입의 표준으로 사용되고 있기 때문에 기본이 되는 것으로 꼭 알아야 합니다. NumPy에서 자주 사용하는 함수나 핵심내용에 대해서 아래 포스팅에서 정리해두었으니 참고하실 수 있습니다. 2017/10/09 - 파이썬으로 데이터 분석하자 (3) - NumPy 기본 Chapter 3. NumPy Section머신러닝 기초(2) - NumPy 복습 왜 NumPy 인가.. 2018. 1. 22.