Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Tags more
Archives
Today
Total
관리 메뉴

러닝머신 하는 K-공대생

캐글(Kaggle)을 시작하다. 본문

잡담, 일상

캐글(Kaggle)을 시작하다.

prgmti1 2021. 2. 15. 17:52

2021년에 새롭게 시작해보고 싶은 것 중 내신 공부 균형있게 하기, PS 틈틈히 공부하기에 이어 바로 캐글(kaggle)이 있었다. 평소 머신러닝이나 딥러닝 분야에 관심이 많아 지금까지 앤드류 응님의 코세라 강의, 모두의 딥러닝 강의, CS231등을 수강하면서 여러 머신러닝 입문책을 보면서 머신러닝 모델, 데이터 처리등에 대해 배웠다. 이과정에서 캔위성 프로젝트에서 Semantic Segmentation을 구현하고, 현재 진행중인 R&E에서도 Weakly-Supervised Semantic Segmentation, CNN, YOLO등을 적용해보는 시도를 하고 있다.

 

하지만 이때 직접 데이터를 수집하고 라벨링이나 어노테이션을 하는 과정은 시간이 많이 걸리기도하고 사실은 연구나 공부보다는 본격 노가다(?!) 에 더욱 가깝다. 그래서 MNIST, CIFAR-10 처럼 잘 라벨링된 데이터를 이용하는 편이 문제를 정의하고 문제를 풀기위해 모델을 선정하고 학습을 진행하는 공부에서는 편하다. 나는 내가 배운 머신러닝 지식을 실제로 다양한 데이터분석에 사용하면서 어떤 모델이나 알고리즘이 분석에 적합한지, 또한 유의미한 결과를 만들어내는 것에 더욱 재미를 느낀다. 이런점에서 공개 데이터 세트를 제공하며 개발 환경 구축, 서버 유지 보수등을 신경 쓸 필요없는 캐글 인프라는 나한테 충분히 매력적이다. 또한 다양한 경진대회를 통해 내 머신러닝 알고리즘의 성능을 비교해볼 수 있다는 것은 더욱 흥미롭다. 

 

지금까지 캐글에서 몇몇 데이터셋을 다운받는 정도로 활용을 해보고 종종 forum에 있는 글들을 눈팅했었는데, 올해부터 본격적으로 학습용 경진대회부터 여러 경진대회에 참여해보며 이전 경진 대회에서 좋은 성과들을 남긴 노트북들을 눈팅하며 데이터 유형별 경향을 파악해보는 식으로 공부를 이어가고싶다. 그래서 캐글에서 제대로 활동하고 싶다는 생각이 들어 캐글 가이드란 책을 구매했다. 앞으로 캐글을 통해 단순히 데이터를 분석해 점수를 겨루려는 목적만이 아닌 데이터의 특징을 논의하면서 효과적인 해결 방법을 공유하는 데이터과학자들의 리그에 뛰어들어 데이터 사이언스를 경험해보며 어떤 책이나 강의를 듣는 것보다 즐겁게 성장하기를 바란다. (물론 내신이나 대입에 지장가지 않는 선에서말이다...혹시 내가 캐글 그랜드 마스터가 되어서 구글에서 일하고 있을지 누가아는가)

 

  

원래 예상 도착일보다 빨리 도착해 기분이 좋다.

Comments