본문 바로가기
코알라UNIV

12주차 실제로해보는 프로젝트(classifier , regression)

by 인듯아닌듯 2020. 1. 1.

Jupyter Notebook에서 코드짜는 것은 어렵지않았다.

실제로 실습해보니 데이터 사이언스에서 정말로 어려운 것은 두가지로 느껴졌다.

1. 신빙성이 있고 많은 양의 데이터를 어디서 가져와야하는가

2. 그러한 정보가 담긴 데이터를 어떻게 Feature Engineering을 해서 컴퓨터가 학습하게 해야할까

앞으로 해커톤을 생각하면 많은양의 데이터를 가져오고 그것을 가공하는 것이 가장 어렵겠다는 생각이 든다.

 

+ immutable vs mutable

comparsion['quality']=y_valid #immutable  데이터가담긴 id가 다름
comparsion=y_valid #mutable  데이터가 담긴 id를 가르키고 있음
y_valid=0 했을때 immuable은 comparsion이 정상출력 , mutable 은 y_valid가 0이 됨에따라 에러발생

 

+ jupyter notebook tip

1. compile이 아닌 interpreter 개념이라서, 수정해주면 shift+enter 실행시켜줘야함

-> 실행 순서가 누적되면서 기존의 data가 계속 잘려나갈 수도 있음 / 실행 순서에 따라서 실행오류가 나기도함

2. find and replace : ctrl + f / make a copy : 복사본 / dd : 셀삭제

3. del df['like'] -> void / df=df.drop(['like'] ,axis=1) -> return

4. dataframe csv파일로 만들 때 "index=False" 추가안하면 default로 생성됨

 

끝~! 배움도 많았고 느낀것도 많은 코알라UNIV 스터디였다.

다음 포스팅은 아마 해커톤에 대해 정리할 것 같습니다.

12주차에 걸친 코알라UNIV 포스팅도 막을 내리겠습니다~ 수고하셨습니다!

 

 

2020년 새해복 많이 받으세요 ~~