본문 바로가기

데이터사이언스9

7주차 데이터로 타이타닉을 분석하라 이번 주 부터는 데이터사이언스에 대해 배우게 된다. 지금까지 웹크롤링으로 데이터를 수집할 수 있었다면, 앞으로는 '그 데이터를 가지고 어떤일을 할 수 있는가' '어떻게 활용하는게 좋을까?' 를 배우는 시간이다. 머신러닝 - 각 특징을 인간이 미리 구분하여 정제된 데이터를 제공한다는 점 , Decision Tree (+ 타할라타구치 시스템을 적용해서 조금 더 error를 캐치해볼 수 있을 것 같아) 딥러닝 - 그런 특징 조차도 전체 이미지로부터 스스로 찾아서 학습한다. (+딥러닝이여서 그런 것은 아니고 머신러닝중 Unsupervised learning에 해당하기 때문임) 머신러닝 딥러닝(인공신경망) 쉽다 어렵다 Data가 적을 때 효율이 크다 Data가 많을 때 효율이 크다 우리의 목표는 예측분석/인과분석.. 2019. 11. 20.
~중간점검~ 전반기 교육인 '네이버 정복 파이썬 크롤링'을 무사히 마쳤다. 데이터사이언스 12시간 입문기'를 들어가기에 앞서서, 코알라유니브2기 대학생들을 한번 다시 모으는 자리를 가졌다. (장소: 홍대 청춘마루 B1) 이번 세미나는 지금까지 배워온 내용을 간단히 정리해보고, 추가적으로 스스로 공부할 때의 Tip 같은 것을 주셨다. 사은품을 주는 재밌는 퀴즈시간도 있었다. 이후에 후반기에 나올 데이터사이언스에 대한 간단한 목차소개와 해커톤에 대한 설명이 이어졌다. 해커톤의 일정과 1기에 나왔던 해커톤 결과물을 보여주면서 당부하신 말은 각 팀별로 정말로 관심있는 분야에 대해서, 어떻게든 결과를 끝까지 내는 것이 중요하다고 말하셨다. 이 말씀은 컴퓨터로 프로그램을 만들어 봤다면, 너무 공감되는 이야기이다. 생각만 하는 .. 2019. 11. 13.
5주차 똑똑하게 데이터 수집하기 선택자의 tag만으로 선택하기어려울때가있다. class이름은 없고 같은 상위 컨테이너에 같은 태그로 있을때, 순서를 이용해서 타겟팅을 해주어야한다. (공통적으로 selector를 이용함) in 선택자 in 리스트 error(없는 값에 .text -> error) error(out of border ex:list[3]) Data 1개 -> if문 string 사용가능 Data가 나눠짐 nth-of-type(1,2,3,4...) list[0,1,2,3,4...] nth-child는 단독으로 쓰이는게 의미가 있는듯 li:nth-child 해도 nth-child가 우선시됨 nth-of-type - 주의사항 1. 무조껀 ">"을 써줘야한다. 2. class , id 와 함께쓰이면 안된다. if-> 비교연산자들 /.. 2019. 11. 6.
4주차 데이터를 저장하는 방법 시험이 끝나고, 오랜만에 다시만났다. 내색하진않았지만 알수없는 반가움이 있었다. 3주차에서 "크롤링한 데이터를 출력하기"까지 배웠다면, 4주차에서는 그 데이터를 앞으로 활용하기위해서 저장하는 방법에대해서 배웠다. 저장할 파일형식은 csv와 xlsx 두가지가 있다. csv는 쉼표와 줄바꿈을 기준으로 데이터를 분류하는 파일로 가볍다는 특징이 있다. (+11/28 csv는 int는 저장할 수 없고string만 저장가능) xlsx는 우리가 정말 많이 사용하는 엑셀파일로써 활용할 수 있는 방법이 많다. csv xlsx import X openpyxl 문자열 전처리 O (replace(",","")가 강제됨) X 시작과 끝 f=open("파일명","w') f.write() f.close() wb=openpyxl.W.. 2019. 11. 1.