본문 바로가기

코알라8

~중간점검~ 전반기 교육인 '네이버 정복 파이썬 크롤링'을 무사히 마쳤다. 데이터사이언스 12시간 입문기'를 들어가기에 앞서서, 코알라유니브2기 대학생들을 한번 다시 모으는 자리를 가졌다. (장소: 홍대 청춘마루 B1) 이번 세미나는 지금까지 배워온 내용을 간단히 정리해보고, 추가적으로 스스로 공부할 때의 Tip 같은 것을 주셨다. 사은품을 주는 재밌는 퀴즈시간도 있었다. 이후에 후반기에 나올 데이터사이언스에 대한 간단한 목차소개와 해커톤에 대한 설명이 이어졌다. 해커톤의 일정과 1기에 나왔던 해커톤 결과물을 보여주면서 당부하신 말은 각 팀별로 정말로 관심있는 분야에 대해서, 어떻게든 결과를 끝까지 내는 것이 중요하다고 말하셨다. 이 말씀은 컴퓨터로 프로그램을 만들어 봤다면, 너무 공감되는 이야기이다. 생각만 하는 .. 2019. 11. 13.
4주차 데이터를 저장하는 방법 시험이 끝나고, 오랜만에 다시만났다. 내색하진않았지만 알수없는 반가움이 있었다. 3주차에서 "크롤링한 데이터를 출력하기"까지 배웠다면, 4주차에서는 그 데이터를 앞으로 활용하기위해서 저장하는 방법에대해서 배웠다. 저장할 파일형식은 csv와 xlsx 두가지가 있다. csv는 쉼표와 줄바꿈을 기준으로 데이터를 분류하는 파일로 가볍다는 특징이 있다. (+11/28 csv는 int는 저장할 수 없고string만 저장가능) xlsx는 우리가 정말 많이 사용하는 엑셀파일로써 활용할 수 있는 방법이 많다. csv xlsx import X openpyxl 문자열 전처리 O (replace(",","")가 강제됨) X 시작과 끝 f=open("파일명","w') f.write() f.close() wb=openpyxl.W.. 2019. 11. 1.
3주차 파이썬으로 데이터 수집하기 매주차에 배우는 양은 정량적이지만, 기존의 알고있던것과 접목되면서 새로이 알게되는 정보와 생겨나는 오류들은 나의 머리속을 주머니속에서 꼬인 이어폰 줄처럼 꼬이게 한다. 배움이 커질 수록 이해는 올라가지만 복잡도는 기하급수적으로 증가한다. 그래서 글을 작성하면서 다시 정리하고자한다. -모임전 정리 우리는 requests와 BeautifulSoup를 이용해서 크롤링을 한다. 다양한 페이지를 크롤링하면서 두 라이브러리의 모듈과 익숙해졌다. 또 "Container와 선택자를 어떻게 잡아야하는가" 에대한 깊은 고민 끝에 어느정도 최적화를 시킬 수 있었다. (->네이버 블로그에 개인적으로 정리해놓음) 자잘구래한 생각과 정보를 얻게 되었는데, 그것을 나열하고자한다. Requests와 BeautifulSoup에 관하여.. 2019. 10. 17.
1주차 웹페이지를 이해해보자 코알라유니브 1주차 수업에서는 웹페이지의 데이터를 크롤링하기 위한 선행학습으로, 웹페이지의 구성과 원하는 정보는 찾을 수 있게하는 선택자에 대해 배워보았다. 기본적인 내용은 팀원들 모두 코알라에 올라와있는 인터넷강의와 자료를 통해서 숙지가 되어있었지만, 선택자를 찾는 것을 처음해보다보니, 여러가지 의문점을 생겼다. 스터디에서는 그 의문점을 해결해보는 시간을 가졌다. 그후 시간은 추가적으로 선택자를 찾는 연습을 하기위해서 다양한 웹페이지에서 선택자를 찾아보고, 의견을 나누었다. 그룹스터디를 하니깐, 혼자 했을 때는 당연히 넘어갔던 부분도 정확하게 하기위해 더 많은 질문이 나왔고, 또 다른사람이 궁금해하는 점에 대해서도 생각해보고 같이 해결하는 시간을 가질 수 있었다. 다만 아쉬웠던 것은 7명이라는 수가 적.. 2019. 10. 3.