본문 바로가기

전체 글55

문과생도 할 수 있는 웹 크롤링 (4) - Selenium 제대로 사용하기 지난 포스팅에서는 간단하게 Selenium으로 구글 검색을 해보면서 작동 메카니즘을 직접 체험해보았다. 자동차 운전으로 따지면 시동키고 핸들잡고 기어 1단으로 두고 조금 앞으로가다 브레이크 밟고 시동을 끈 정도이다. 다른 블로그도 대부분 이정도 수준이나 조금 더 나아간 수준으로 알려준다. 2017/09/29 - [Data Science/Python] - 문과생도 할 수 있는 웹 크롤링 (1) - 웹 데이터 크롤링 준비2017/09/29 - [Data Science/Python] - 문과생도 할 수 있는 웹 크롤링 (2) - Selenium 사용 준비2017/09/30 - [Data Science/Python] - 문과생도 할 수 있는 웹 크롤링 (3) - Selenium 실습 기초 본 포스팅에서는 자동차.. 2017. 10. 6.
문과생도 할 수 있는 웹 크롤링 (3) - Selenium 실습 기초 지난 포스팅에서는 Selenium 사용해 크롤링 할 준비를 끝냈다. 이제는 Selenium으로 간단하게 구글 검색을 해보는 것으로 Selenium을 살펴 보고 Selenium 사용할 때 기본적으로 알아야 하는 내용들을 정리하는 것으로 Selenium 포스팅은 마치려고 한다. 2017/09/29 - [Data Science/Python] - 문과생도 할 수 있는 웹 크롤링 (1) - 웹 데이터 크롤링 준비2017/09/29 - [Data Science/Python] - 문과생도 할 수 있는 웹 크롤링 (2) - Selenium 사용 준비 구글은 크롤링을 막기 위한 조치가 아주아주 잘 되어 있어서 파이썬으로 url의 request나 태깅을 통한 정보 접근 등의 일반적인 크롤링 방법으로는 어렵고 설령 만들었다.. 2017. 9. 30.
문과생도 할 수 있는 웹 크롤링 (2) - Selenium 사용 준비 자! 데이터 크롤링 방법을 논하기에 먼저 필요한 도구들을 하나씩 정리하려고 한다. Selenium, Scrapy, Json, Database.... 등등 포스팅을 하면서 정말 필요한 것들만 정리해보도록 하겠다. 2017/09/29 - [Data Science/Python] - 문과생도 할 수 있는 웹 크롤링 (1) - 웹 데이터 크롤링 준비 Selenium 사용 준비 문과생도 할 수 있는 웹 크롤링 (2)1. Selenium 기본 개념2. Selenium 설치 3. 브라우저 driver 설치4. Selenium 시작하기 가장 먼저 Selenium을 다뤄보려고 한다. 데이터 수집 방법은 각 도구들이 하나의 조각으로 모든 조각을 합쳐져 만들어지기 때문에 지금은 그 조각을 맞춰 나가는 것이 제일 중요하며 Se.. 2017. 9. 29.
문과생도 할 수 있는 웹 크롤링 (1) - 웹 데이터 크롤링 준비 시중에 나와 있는 책은 대부분 API를 이용해 데이터를 수집하는 차원의 웹 크롤링을 소개하는 것이 대부분이다. 공인된 서적이 제공할 수 있는 내용적 한계 때문인 듯 하다. 크롤링(crawling)이라는 것은 합법과 범법 사이에서 아슬아슬한 줄타기를 하는 작업이기 때문에 그와 관련된 내용을 public하게 출판하는 것은 위험 소지가 있다. ※ 따라서 "문과생도 할 수 있는 웹 크롤링"은 시중 책에서 제공하지 못하는 내용을 중심으로 정말 우리가 웹에서 수집하고 싶은 데이터를 어떻게 수집할 수 있는지 그 방법과 도구들을 논하고자 한다. 그리고 파이썬과 기본적인 웹 크롤링(정적 홈페이지)을 다루는 것은 다른 많은 블로그나 책에서 다루기 때문에 여기서는 정말 수집하고 싶은... 사이트의 데이터 수집 방법을 다루겠.. 2017. 9. 29.
문과생도 이해하는 딥러닝 (1) - 퍼셉트론 Perceptron 퍼셉트론 Perceptron문과생도 이해하는 딥러닝 (1) 딥러닝이라는 말이 학계, 업계 어디든 할 것 없이 엄청난 화두이다. 그래도 아직까지는 기계학습이면 충분하지만 점점 더 인공지능과 관련된 신경망 기반의 딥러닝 알고리즘들에 대한 수요가 더욱 중요해질 것이다.(그것이 설령 필요하지 않더라도... 오버스펙...) 어쨌든 기계학습(machine learning) 알고리즘의 하나일 뿐인 딥러닝이 이제는 기계학습이라는 용어 자체를 대변하려는 기세를 보이고 있다. 기계학습에 대해 설명한 좋은 글들이 많이 있다. 간단하게 본다면 기계학습은 기계가 학습하는 것이다!(?) 컴퓨터는 인간에 비해서 복잡한 연산을 아주 빠르게 소화할 수 있는 기계일 뿐이었고 사람과 같이 무언가를 인식하는 것은 하지 못했다. 기계학습은 .. 2017. 9. 27.
파이썬으로 데이터 분석하자 (2) - IPython 사용하기 파이썬 IPython - 파이썬 라이브러리를 활용한 데이터 분석 中※본 포스팅은 "파이썬 라이브러리를 활용한 데이터 분석"을 공부하면서 기억이 나지 않을 때 다시 돌아볼 목적으로 필요 내용만 간단하게 정리하였습니다. IPython 사용하기 자기관찰 ??는 일반정보, ??는 가능한 경우 함수 소스코드variable?function?? dir()을 알았을 때의 기쁨을 자기관찰(?, ??)을 알았을 때 또 느꼈다!!!! %run%run script.pypython scipt.py와 동일하게 동작하며 ipython 네임스페이스에 해당 스크립트에서 정의된 모든 변수들이 정의되어 접근이 가능 %paste, %cpaste클립보드에 있는 내용 붙여넣기할 때 오류를 일으키지 않도록 해줌 단축키 ctrl+p command.. 2017. 9. 27.
Python 기초 - 일급함수(first-class)란 무엇인가 파이썬 내용 보충 - 밑바닥부터 시작하는 데이터 과학 中※본 포스팅은 "밑바닥부터 시작하는 데이터 과학"을 공부하면서 Python2로 작성된 샘플 코드를 Python3으로 변환할 때 발생하는 에러 혹은 수정 내용 등 또는 필용한 내용을 정리하기 위해 작성되었습니다. 일급 함수(first-class) 일급 함수(first-class)는 객체 지향 프로그래밍(object-oriented programming) 중에서 파이썬을 포함한 몇몇 프로그래밍 언어에서 발견할 수 있는 개념이다. 아래는 이를 잘 드러내는 파이썬의 철학이다. '모든 것은 객체(object)다' 객체는 숫자, 문자열, 튜플, 리스트, 딕셔너리, 그리고 함수를 포함한다. 함수는 그 중에서도 일급 시민(first-class citizen)이다... 2017. 9. 20.
딥러닝으로 NLP 하자 (2) - word2vector, Word Vectors 기초 ※ 본 포스팅은 스탠포드 대학의 "CS224n: Natural Language Processing with Deep Learning"1 강의를 수강하며 배운 것을 정리하기 위해 작성되었습니다. 모든 원문은 다음 링크에서 확인하실 수 있습니다. http://web.stanford.edu/class/cs224n/ 정리한 내용이 불완전하고 오류가 있을 수 있습니다. 댓글로 말씀해주시면 큰 도움이 됩니다. Word Vectors 1. Word의 의미2. word2vec 개요 3. Word Vectors4. word2vec objective function gradients5. Optimiztation refresher 1. Word의 의미단어의 의미(meaning)를 어떻게 대신 표현(representation.. 2017. 9. 19.
파이썬으로 데이터 분석하자 (1) 파이썬 코드 - 파이썬 라이브러리를 활용한 데이터 분석 中※본 포스팅은 "파이썬 라이브러리를 활용한 데이터 분석"을 공부하면서 Python2로 작성된 샘플 코드를 Python3으로 변환할 때 발생하는 에러 혹은 수정 내용 등을 정리하기 위해 작성되었습니다. open.path() 오류Python3에서는 encoding을 명시해서 해줘야 하며, 맨 마지막 argument는 buffer에 대한 것이므로 encoding을 utf-8로 하기 위해서는 반드시 전달인자명 여기서는 encoding을 명시해줘야 한다. 123import jsonpath = "파일명"records = [json.loads(line) for line in open(path, "r", encoding="utf8")]cs 참고자료http://n.. 2017. 9. 19.