본문 바로가기

코알라유니브9

12주차 실제로해보는 프로젝트(classifier , regression) Jupyter Notebook에서 코드짜는 것은 어렵지않았다. 실제로 실습해보니 데이터 사이언스에서 정말로 어려운 것은 두가지로 느껴졌다. 1. 신빙성이 있고 많은 양의 데이터를 어디서 가져와야하는가 2. 그러한 정보가 담긴 데이터를 어떻게 Feature Engineering을 해서 컴퓨터가 학습하게 해야할까 앞으로 해커톤을 생각하면 많은양의 데이터를 가져오고 그것을 가공하는 것이 가장 어렵겠다는 생각이 든다. + immutable vs mutable comparsion['quality']=y_valid #immutable 데이터가담긴 id가 다름 comparsion=y_valid #mutable 데이터가 담긴 id를 가르키고 있음 y_valid=0 했을때 immuable은 comparsion이 정상출력.. 2020. 1. 1.
8주차 데이터 사이언스를 위한 파이썬 특강 2주차 '데이터수집을 위한 기초 파이썬'에서 배웠던 것과 마찬가지로 앞으로 데이터사이언스를 하기위해서, 필요한 파이썬 코딩에 대해 배워보았다. 지금까지는 Pycharm(개발도구)를 이용하여 python언어를 사용했다면, 이제는 jupyter을 이용하려고한다. jupyter는 파이썬 코드 실행과 함께 문서작업이 용이하기때문에, 앞으로 데이터사이언스를 활용하고 그 결과를 문서형태로 내보낼 때 좋을 것이라고 생각한다. jupyter는 python.interactive한 언어. pycharm는 python.script한 언어 Python has two basic modes: script and interactive. The normal mode is the mode where the scripted and fi.. 2019. 11. 28.
7주차 데이터로 타이타닉을 분석하라 이번 주 부터는 데이터사이언스에 대해 배우게 된다. 지금까지 웹크롤링으로 데이터를 수집할 수 있었다면, 앞으로는 '그 데이터를 가지고 어떤일을 할 수 있는가' '어떻게 활용하는게 좋을까?' 를 배우는 시간이다. 머신러닝 - 각 특징을 인간이 미리 구분하여 정제된 데이터를 제공한다는 점 , Decision Tree (+ 타할라타구치 시스템을 적용해서 조금 더 error를 캐치해볼 수 있을 것 같아) 딥러닝 - 그런 특징 조차도 전체 이미지로부터 스스로 찾아서 학습한다. (+딥러닝이여서 그런 것은 아니고 머신러닝중 Unsupervised learning에 해당하기 때문임) 머신러닝 딥러닝(인공신경망) 쉽다 어렵다 Data가 적을 때 효율이 크다 Data가 많을 때 효율이 크다 우리의 목표는 예측분석/인과분석.. 2019. 11. 20.
~중간점검~ 전반기 교육인 '네이버 정복 파이썬 크롤링'을 무사히 마쳤다. 데이터사이언스 12시간 입문기'를 들어가기에 앞서서, 코알라유니브2기 대학생들을 한번 다시 모으는 자리를 가졌다. (장소: 홍대 청춘마루 B1) 이번 세미나는 지금까지 배워온 내용을 간단히 정리해보고, 추가적으로 스스로 공부할 때의 Tip 같은 것을 주셨다. 사은품을 주는 재밌는 퀴즈시간도 있었다. 이후에 후반기에 나올 데이터사이언스에 대한 간단한 목차소개와 해커톤에 대한 설명이 이어졌다. 해커톤의 일정과 1기에 나왔던 해커톤 결과물을 보여주면서 당부하신 말은 각 팀별로 정말로 관심있는 분야에 대해서, 어떻게든 결과를 끝까지 내는 것이 중요하다고 말하셨다. 이 말씀은 컴퓨터로 프로그램을 만들어 봤다면, 너무 공감되는 이야기이다. 생각만 하는 .. 2019. 11. 13.