본문 바로가기

python11

문과생도 할 수 있는 웹 크롤링 (1) - 웹 데이터 크롤링 준비 시중에 나와 있는 책은 대부분 API를 이용해 데이터를 수집하는 차원의 웹 크롤링을 소개하는 것이 대부분이다. 공인된 서적이 제공할 수 있는 내용적 한계 때문인 듯 하다. 크롤링(crawling)이라는 것은 합법과 범법 사이에서 아슬아슬한 줄타기를 하는 작업이기 때문에 그와 관련된 내용을 public하게 출판하는 것은 위험 소지가 있다. ※ 따라서 "문과생도 할 수 있는 웹 크롤링"은 시중 책에서 제공하지 못하는 내용을 중심으로 정말 우리가 웹에서 수집하고 싶은 데이터를 어떻게 수집할 수 있는지 그 방법과 도구들을 논하고자 한다. 그리고 파이썬과 기본적인 웹 크롤링(정적 홈페이지)을 다루는 것은 다른 많은 블로그나 책에서 다루기 때문에 여기서는 정말 수집하고 싶은... 사이트의 데이터 수집 방법을 다루겠.. 2017. 9. 29.
Python 기초 - 일급함수(first-class)란 무엇인가 파이썬 내용 보충 - 밑바닥부터 시작하는 데이터 과학 中※본 포스팅은 "밑바닥부터 시작하는 데이터 과학"을 공부하면서 Python2로 작성된 샘플 코드를 Python3으로 변환할 때 발생하는 에러 혹은 수정 내용 등 또는 필용한 내용을 정리하기 위해 작성되었습니다. 일급 함수(first-class) 일급 함수(first-class)는 객체 지향 프로그래밍(object-oriented programming) 중에서 파이썬을 포함한 몇몇 프로그래밍 언어에서 발견할 수 있는 개념이다. 아래는 이를 잘 드러내는 파이썬의 철학이다. '모든 것은 객체(object)다' 객체는 숫자, 문자열, 튜플, 리스트, 딕셔너리, 그리고 함수를 포함한다. 함수는 그 중에서도 일급 시민(first-class citizen)이다... 2017. 9. 20.
파이썬으로 데이터 분석하자 (1) 파이썬 코드 - 파이썬 라이브러리를 활용한 데이터 분석 中※본 포스팅은 "파이썬 라이브러리를 활용한 데이터 분석"을 공부하면서 Python2로 작성된 샘플 코드를 Python3으로 변환할 때 발생하는 에러 혹은 수정 내용 등을 정리하기 위해 작성되었습니다. open.path() 오류Python3에서는 encoding을 명시해서 해줘야 하며, 맨 마지막 argument는 buffer에 대한 것이므로 encoding을 utf-8로 하기 위해서는 반드시 전달인자명 여기서는 encoding을 명시해줘야 한다. 123import jsonpath = "파일명"records = [json.loads(line) for line in open(path, "r", encoding="utf8")]cs 참고자료http://n.. 2017. 9. 19.