Jupyter Notebook에서 코드짜는 것은 어렵지않았다.
실제로 실습해보니 데이터 사이언스에서 정말로 어려운 것은 두가지로 느껴졌다.
1. 신빙성이 있고 많은 양의 데이터를 어디서 가져와야하는가
2. 그러한 정보가 담긴 데이터를 어떻게 Feature Engineering을 해서 컴퓨터가 학습하게 해야할까
앞으로 해커톤을 생각하면 많은양의 데이터를 가져오고 그것을 가공하는 것이 가장 어렵겠다는 생각이 든다.
+ immutable vs mutable
comparsion['quality']=y_valid #immutable 데이터가담긴 id가 다름
comparsion=y_valid #mutable 데이터가 담긴 id를 가르키고 있음
y_valid=0 했을때 immuable은 comparsion이 정상출력 , mutable 은 y_valid가 0이 됨에따라 에러발생
+ jupyter notebook tip
1. compile이 아닌 interpreter 개념이라서, 수정해주면 shift+enter 실행시켜줘야함
-> 실행 순서가 누적되면서 기존의 data가 계속 잘려나갈 수도 있음 / 실행 순서에 따라서 실행오류가 나기도함
2. find and replace : ctrl + f / make a copy : 복사본 / dd : 셀삭제
3. del df['like'] -> void / df=df.drop(['like'] ,axis=1) -> return
4. dataframe csv파일로 만들 때 "index=False" 추가안하면 default로 생성됨
끝~! 배움도 많았고 느낀것도 많은 코알라UNIV 스터디였다.
다음 포스팅은 아마 해커톤에 대해 정리할 것 같습니다.
12주차에 걸친 코알라UNIV 포스팅도 막을 내리겠습니다~ 수고하셨습니다!
2020년 새해복 많이 받으세요 ~~
'코알라UNIV' 카테고리의 다른 글
11주차 회귀분석을 이용한 집값 추측, 나에게 맞는 의류사이즈 추측 (0) | 2020.01.01 |
---|---|
10주차 데이터로 꽃의 종류를 구분해보자 (0) | 2019.12.23 |
9주차 타이타닉에서는 누가 살아남았을까? (0) | 2019.12.22 |
8주차 데이터 사이언스를 위한 파이썬 특강 (0) | 2019.11.28 |
7주차 데이터로 타이타닉을 분석하라 (0) | 2019.11.20 |