본문 바로가기

코알라UNIV14

5주차 똑똑하게 데이터 수집하기 선택자의 tag만으로 선택하기어려울때가있다. class이름은 없고 같은 상위 컨테이너에 같은 태그로 있을때, 순서를 이용해서 타겟팅을 해주어야한다. (공통적으로 selector를 이용함) in 선택자 in 리스트 error(없는 값에 .text -> error) error(out of border ex:list[3]) Data 1개 -> if문 string 사용가능 Data가 나눠짐 nth-of-type(1,2,3,4...) list[0,1,2,3,4...] nth-child는 단독으로 쓰이는게 의미가 있는듯 li:nth-child 해도 nth-child가 우선시됨 nth-of-type - 주의사항 1. 무조껀 ">"을 써줘야한다. 2. class , id 와 함께쓰이면 안된다. if-> 비교연산자들 /.. 2019. 11. 6.
4주차 데이터를 저장하는 방법 시험이 끝나고, 오랜만에 다시만났다. 내색하진않았지만 알수없는 반가움이 있었다. 3주차에서 "크롤링한 데이터를 출력하기"까지 배웠다면, 4주차에서는 그 데이터를 앞으로 활용하기위해서 저장하는 방법에대해서 배웠다. 저장할 파일형식은 csv와 xlsx 두가지가 있다. csv는 쉼표와 줄바꿈을 기준으로 데이터를 분류하는 파일로 가볍다는 특징이 있다. (+11/28 csv는 int는 저장할 수 없고string만 저장가능) xlsx는 우리가 정말 많이 사용하는 엑셀파일로써 활용할 수 있는 방법이 많다. csv xlsx import X openpyxl 문자열 전처리 O (replace(",","")가 강제됨) X 시작과 끝 f=open("파일명","w') f.write() f.close() wb=openpyxl.W.. 2019. 11. 1.
3주차 파이썬으로 데이터 수집하기 매주차에 배우는 양은 정량적이지만, 기존의 알고있던것과 접목되면서 새로이 알게되는 정보와 생겨나는 오류들은 나의 머리속을 주머니속에서 꼬인 이어폰 줄처럼 꼬이게 한다. 배움이 커질 수록 이해는 올라가지만 복잡도는 기하급수적으로 증가한다. 그래서 글을 작성하면서 다시 정리하고자한다. -모임전 정리 우리는 requests와 BeautifulSoup를 이용해서 크롤링을 한다. 다양한 페이지를 크롤링하면서 두 라이브러리의 모듈과 익숙해졌다. 또 "Container와 선택자를 어떻게 잡아야하는가" 에대한 깊은 고민 끝에 어느정도 최적화를 시킬 수 있었다. (->네이버 블로그에 개인적으로 정리해놓음) 자잘구래한 생각과 정보를 얻게 되었는데, 그것을 나열하고자한다. Requests와 BeautifulSoup에 관하여.. 2019. 10. 17.
2주차 데이터수집을 위한 기초 파이썬 2019/10/9 한글날에도 학교 도서관은 꽉 차있다. 오늘 15년만에 최저 온도를 다시 갱신했다고 했는데, 도서관은 공부에 대한 열기로 뜨겁다. 마찬가지로, 휴학중인 나와는 달리 우리팀원들은 학교 공부와 알바 혹은 전공관련 프로젝트 또 각자의 취미생활에 더해서 코알라유니브 활동까지 하고있다. 뛰는시간속에 날고 있는 우리 팀원들을 보면서 나도 꾸준히 걸어야겠다는 생각을 한다. 빈칸 빈칸 빈칸 2주차 정리 요번 주는 내가 배운 내용을 정리하는 순서여서 우리 팀원들에게 전달하려고한 Script를 그대로 복붙함 1주차에서는 HTML의 구성과 / HTML에서 컨테이너와 선택자를 설정하는 방법을 배움 3주차에서 데이터를 수집하는 코딩을 파이썬 하기때문에, 2주차에서는 파이썬에 대해 알아보려고 함. 먼저 파이썬은 .. 2019. 10. 9.