본문 바로가기

코알라유니브9

6주차 내 마음대로 움직이는 로봇 브라우저 6주차는 1주차부터 쌓인 누적량이 커져서 내용이 길어진다. 그래서 보기좋게 정리하는데 오랜시간이 걸린다. 그래도 마지막 주차인 만큼 알고있는 모든 내용을 쏟아붓기로한다 정적페이지와 동적페이지 구분 동적페이지: 1. 주소가 바뀌지않음 2. 검사 창에 있는 정보가 소스코드에는 존재하지않음 3. 1번2번의 이유는 유저가 행동에 따라 변할때, 페이지가 new_load 되는 것이 아니라, 페이지는 변하지않고 페이지안의 앱이 연산하는 것이기 때문에 ​ , 등의 태그 안에 텍스트를 입력하고 싶을 때는선택한 요소에 .send_keys() 함수를 사용하면 원하는 내용을 입력할 수 있습니다. , 등의 클릭 가능한 요소를 선택한 후에는 .click() 함수를 사용해서 상호작용이 가능합니다. select와 select_one.. 2019. 11. 13.
5주차 똑똑하게 데이터 수집하기 선택자의 tag만으로 선택하기어려울때가있다. class이름은 없고 같은 상위 컨테이너에 같은 태그로 있을때, 순서를 이용해서 타겟팅을 해주어야한다. (공통적으로 selector를 이용함) in 선택자 in 리스트 error(없는 값에 .text -> error) error(out of border ex:list[3]) Data 1개 -> if문 string 사용가능 Data가 나눠짐 nth-of-type(1,2,3,4...) list[0,1,2,3,4...] nth-child는 단독으로 쓰이는게 의미가 있는듯 li:nth-child 해도 nth-child가 우선시됨 nth-of-type - 주의사항 1. 무조껀 ">"을 써줘야한다. 2. class , id 와 함께쓰이면 안된다. if-> 비교연산자들 /.. 2019. 11. 6.
4주차 데이터를 저장하는 방법 시험이 끝나고, 오랜만에 다시만났다. 내색하진않았지만 알수없는 반가움이 있었다. 3주차에서 "크롤링한 데이터를 출력하기"까지 배웠다면, 4주차에서는 그 데이터를 앞으로 활용하기위해서 저장하는 방법에대해서 배웠다. 저장할 파일형식은 csv와 xlsx 두가지가 있다. csv는 쉼표와 줄바꿈을 기준으로 데이터를 분류하는 파일로 가볍다는 특징이 있다. (+11/28 csv는 int는 저장할 수 없고string만 저장가능) xlsx는 우리가 정말 많이 사용하는 엑셀파일로써 활용할 수 있는 방법이 많다. csv xlsx import X openpyxl 문자열 전처리 O (replace(",","")가 강제됨) X 시작과 끝 f=open("파일명","w') f.write() f.close() wb=openpyxl.W.. 2019. 11. 1.
3주차 파이썬으로 데이터 수집하기 매주차에 배우는 양은 정량적이지만, 기존의 알고있던것과 접목되면서 새로이 알게되는 정보와 생겨나는 오류들은 나의 머리속을 주머니속에서 꼬인 이어폰 줄처럼 꼬이게 한다. 배움이 커질 수록 이해는 올라가지만 복잡도는 기하급수적으로 증가한다. 그래서 글을 작성하면서 다시 정리하고자한다. -모임전 정리 우리는 requests와 BeautifulSoup를 이용해서 크롤링을 한다. 다양한 페이지를 크롤링하면서 두 라이브러리의 모듈과 익숙해졌다. 또 "Container와 선택자를 어떻게 잡아야하는가" 에대한 깊은 고민 끝에 어느정도 최적화를 시킬 수 있었다. (->네이버 블로그에 개인적으로 정리해놓음) 자잘구래한 생각과 정보를 얻게 되었는데, 그것을 나열하고자한다. Requests와 BeautifulSoup에 관하여.. 2019. 10. 17.