Data Science/머신러닝 기초
머신러닝 기초 (4) - 데이터 전처리 with Pandas
싸코
2018. 1. 27. 14:20
가천대 최성철 교수님의 '밑바닥부터 시작하는 머신러닝 입문'을 수강하며 노트 필기 및 추가 내용 작성을 목적으로 포스팅합니다.
Pandas를 사용하면 엑셀의 스프레드시트나 SQL의 테이블을 사용하듯이 파이썬에서 데이터를 다루는 것처럼 소개하였는데 이전 시간에는 이런 내용을 별로 다루지 않았습니다. Pandas 그 자체에 대해서 파이썬의 관점에서 주로 다루었던 것 같습니다. map 함수나 기타 방법을 통해서 변수를 변환하고 데이터 처리 작업을 하는 것은 일반적으로 우리가 사용하는 방법과는 거리가 멀었던 것은 사실입니다.
이번에는 SQL에서 많이 사용하는 group by 나 merge(JOIN 과 같습니다.), concat(UNION 과 비슷합니다) 같은 Pandas DataFrame의 메소드를 배우게 됩니다. 나아가 실제 데이터베이스에 접속하여 데이터를 불러오는 것도 다룹니다.
이번 포스팅에서 다루는 Aggregation, Transformation, Filteration 이 세 가지만 알고 간다면 Pandas를 이용해 데이터를 전처리할 때 충분히 많은 도움이 될 것 같습니다.
Chapter 5. Pandas Section #2
머신러닝 기초 (4) - Data Handling with Pandas
Pandas는 정형 데이터 처리에 특화된 파이썬 라이브러리입니다. NumPy array와 통합되어 강력한 스프레드시트 처리 기능을 제공하여 쉽고 빠르게 많은 작업들을 처리해줍니다.
Group By의 Hierarchical index
groupby는 sql의 GROUP BY와 동일하게 작용되어 설정한 컬럼에 대해서 그룹별로 묶어주는 작업을 합니다. 일반적인 SQL과 비슷하게 Aggregate 함수를 사용해서 그룹별로 집계를 위한 작업을 해주어야 합니다.
그리고 groupby 명령의 결과물도 dataframe이기 때문에 두 개의 group by를 하면 index가 두 개가 생성됩니다.
unstack()을 사용하면 group으로 묶여진 데이터를 matrix 형태로 전환해줍니다.
h_index.unstack()
h_index.unstack().fillna(0)
swaplevel은 index의 level을 변경할 수 있습니다.
h_index.swaplevel()
sort_index은 group by의 index level로 정렬을 하는 것을 말합니다.
h_index.sort_index()
Group By를 통해 split 된 데이터를 각기 볼 수 있을까?
group 별로 split 된 데이터를 볼 수 있습니다. groupby 메소드를 적용한 DataFrame은 <pandas.core.groupby.DataFrameGroupBy object> 라고 나옵니다. 그룹별로 split된 상태로 저장되어 있는 것이며 일종의 튜플 형식이기 때문에 for문 등을 통해서 구분하면 group 별로 데이터를 볼 수도 있습니다.
이를 보기 위해서는 split된 데이터에 대해서 apply가 필요하며 Aggregation(집계), Transformation(변환), Filtration(필터) 세 가지에 대해서 작업을 할 수 있습니다.
Aggregation
특정 컬럼에 aggreation function을 복수개 사용할 수도 있습니다.
grouped['Points'].agg([np.sum, np.mean, np.std])
Transformation
group 별로 transform에 사용하는 함수를 적용하여 변환 작업을 합니다. max 또는 min을 사용했을 때 전체 데이터에 대해서 최대, 최소를 구하는 것이 아니라 각 그룹에서의 최대, 최소를 구분하고 합쳐서 결과를 반환합니다.
score = lambda x: (x.mean())/x.std()
grouped.transform(score)
Filteration
lambda 함수를 적용해서 필터링 하고자 하는 조건의 함수를 적용하여 해당 그룹만 나오도록 합니다.
df.groupby('Team').filter(lambda x: len(x) >= 3)
중요한 꿀팁
dateutils를 사용하면 datetime 컬럼에 대해서 group by를 하고 사용하기가 훨씬 매우 편합니다. dateutils을 통해 datetime의 형식을 맞춰주어 전처리 시에 활용하기 좋습니다.
import dateutil
df_phone['date'].apply(dateutil.parser.parse, dayfirst=True)
df_phone.head()
df_phone.groupby('month')['duration'].sum()
df_phone.groupby(['month', 'item'])['date'].count().unstack()
item | call | data | sms |
---|---|---|---|
month | |||
2014-11 | 107 | 29 | 94 |
2014-12 | 79 | 30 | 48 |
2015-01 | 88 | 31 | 86 |
2015-02 | 67 | 31 | 39 |
2015-03 | 47 | 29 | 25 |
Aggregation 하나 더!
하나의 컬럼에 aggregation을 여러개 적용할 수도 있습니다. dictionary 형태로 key 값을 컬럼으로 value를 적용하고 싶은 집계함수를 사용하면 한 컬럼에 대해서 다양한 집계 함수를 적용하여 결과를 확인할 수 있습니다.
df_phone.groupby(['month', 'item']).agg({'duration': [min, max, sum],
'network_type': 'count',
'date': [min, 'first', 'nunique']})
Pandas로 데이터베이스의 테이블을 불러올 수 있을까?
빅데이터 분석 작업을 하다보면 데이터베이스에 저장해놓은 대용량의 파일에 접근하여 필요한 데이터만 추출해서 사용하게 될 때가 많아집니다. Pandas에는 sql 쿼리를 사용하여 바로 pandas 데이터프레임으로 해당 DB의 테이블을 불러올 수 있는 방법이 있습니다.
pandas에서 테이블의 데이터를 가져오기에 앞서 데이터베이스에 접속을 해야 합니다. pymysql과 같은 파이썬으로 데이터베이스에 접속을 도와주는 라이브러리를 사용하는 것이 좋습니다.
데이터를 가져오고자 하는 데이터베이스와 연결된 connection 객체가 생성되면 이를 pandas의 read_sql_query 함수를 이용해 쿼리문을 날려 데이터를 가져올 수 있습니다.
df_routes = pd.read_sql_query("select * from routes;", conn)
df_routes.head()