본문 바로가기

전체 글30

11주차 회귀분석을 이용한 집값 추측, 나에게 맞는 의류사이즈 추측 12주차는 각자 개별과제로 마무리하기로 했기때문에 그룹스터디도 이걸로 끝났다. 바쁜와중에 다들 수고 많았던 것 같다. 초심그대로 해커톤까지 잘 마무리하도록하자 지난주차에 배웠던 DecisionTree,RandomForest 모델은 '분류'를 하는 거였다면, 11주차에서는 '계산'을 해서 수로 나타내보려고한다. 공통점은 둘 다 예측을 한다는 점이다. 수치를 예상하는 것은 회귀분석이라고한다. stage 1에서는 가장 간단한 회귀모델인 Linear Regression의 기본적인 개념을 짚고 갔다. 독립변수 x 와 종속 변수 y가 있을 때, 실제 x 값에 따른 예측 y 값이 직선상에 있다고 가정하는 모델이다. 빨간색 점이 실제 x와 y값이고, 초록색 직선이 Linear regression 모델이다. 이 직선은 .. 2020. 1. 1.
10주차 데이터로 꽃의 종류를 구분해보자 Decision Tree 모델의 단점은 주어진데이터에 너무 과도하게 맞춘다는데에 있다. 이러한 현상을 Overfitting 됬다고 한다. 지난 주차에 train 데이터에 대해서 .score을 내면 상당히 높은 값이 나오지만, 실제 valid or test 데이터에 대해서 .score을 하면 점수가 많이 떨어지는 것을 확인 할 수 있었다. Overfitting 때문이다. 물론 데이터가 많을 수록 이러한 overfitting은 자체적으로 보안되지만, 제한된 데이터(자원)이 있는 경우가 문제이다. Decision Tree의 이러한 overfitting 하는 단점을 보안하기 위해 만들어진 방법이 ensemble(앙상블)기법이다. 마치 현상에 대한 예측 결과를 여러명의 전문가에게 묻고 그 의견을 종합하는 것이 더.. 2019. 12. 23.
9주차 타이타닉에서는 누가 살아남았을까? 기말고사가 모두 끝나고 오랜만에 보게된 팀원들 얼굴은 각양각색이였다. 시험이 다 끝나서 기쁜 얼굴도 있고,이제 막 끝나서 회복이 필요한 얼굴과 아직 끝나지않아 당장이라도 쓰러질것 같은 얼굴도 있었다. 데이터사이언스에 해당하는 7~12주차에서 7주차와 8주차내용을 되짚어보면, 7주차에는 엑셀을 이용해서 머신러닝 개념을 배워보았고, 8주차는 JuptyerNotebook에 대한 기본적인 사용방법과 데이터를 다양한 형태로 시각화하는 방법까지 배워보았다. 이번 9주차에는 7주차에 배운 머신러닝의 개념을 8주차에 익힌 JupterNotebook에서 해보는 것이다. 결과가 나오는 실제 러신머닝은 지금부터 시작이라고 할 수 있다. 9주차에서 가장 중요하다고 생각하는 부분은 Feature Engineering이라고 생각.. 2019. 12. 22.
8주차 데이터 사이언스를 위한 파이썬 특강 2주차 '데이터수집을 위한 기초 파이썬'에서 배웠던 것과 마찬가지로 앞으로 데이터사이언스를 하기위해서, 필요한 파이썬 코딩에 대해 배워보았다. 지금까지는 Pycharm(개발도구)를 이용하여 python언어를 사용했다면, 이제는 jupyter을 이용하려고한다. jupyter는 파이썬 코드 실행과 함께 문서작업이 용이하기때문에, 앞으로 데이터사이언스를 활용하고 그 결과를 문서형태로 내보낼 때 좋을 것이라고 생각한다. jupyter는 python.interactive한 언어. pycharm는 python.script한 언어 Python has two basic modes: script and interactive. The normal mode is the mode where the scripted and fi.. 2019. 11. 28.