강의자료/머신러닝

[캐글(Kaggle) 따라하기]01.왜 캐글인가?

파아란 기쁨 2022. 9. 23. 08:42

1. 캐글이란?

캐글은 데이터과학 및 머신러닝 경진대회를 주최하는 온라인 커뮤니티로 전 세계 데이터 과학자를 위한 놀이터이다.

캐글에는 방대한 데이터, 유능한 데이터 과학자, 훌륭한 코드,좋은 문화가 있어 데이터 과학 역량을 쌓는데 최적의 플랫폼이다.

 

2. 캐글을 해야만 하는 이유?

코딩인터뷰에 대비하기 위해 다양한 알고리즘 문제사이트(백준,알고스팟,프로그래머스등)를 활용합니다.

세상이 바뀌어 앞으로의 기술은 알고리즘만으로 해결하기 어려운 문제들에 도전하고 있습니다.

바로 데이터과학과 머신러닝이 대표적입니다. 이 분야에서는 '데이터' 가 핵심입니다. 데이터 없이는 유의미한 문제를 제시 할 수 조차 없습니다. 그리고 양질의 데이터는 개인이나 작은 단체에서는 쉽사리 만들어 내기도 어렵습니다. 이러한 환경에서 훌륭한 데이터 과학자,최고의 머신러닝 엔지니어를 꿈꾸는 여러분께 캐글을 권하는 이유는 다음과 같습니다.

  • 데이터 과학 및 머신러닝 역량강화 - 경진대회에 참여 하면서 머신러닝 스킬을 향상 시킬 수 있다.
  • 공유와 경쟁의 상승효과 - 자신이 작성한 노트북을 다른 사람들과 공유하며 공유된 노트북을 이용해 성능 좋은 모델을 개발 할 수 있다.
  • 개인이 접할 수 없는 환경 - 개인이 실제 기업데이터를 접하기는 쉽지 않습니다. 하지만 캐글에서는 가능합니다.

 

3. 캐글 구성요소

캐글의 구성요소는 다음과 같습니다.

  • Home - 메인 홈페이지
  • Competitions - 경진대회

경진대회는 대회에 따라 다르지만 보통 1~3개월 동안 진행 됩니다. 참가자는 기업이 제공한 데이터를 분석하게 됩니다. 대회가 끝나면 기업은 성능 좋은 모델을 개발한 참가자에게 상금을 지급합니다. 상금을 받은 참가자는 기업에게 자신이 짠 코드를 제공합니다. 기업은 스스로 만들 수 없는 데이터 과학 및 모델링 코드를 얻을 수 있고 참가자는 상금을 얻을 수 있습니다. 또한 경진대회에 참여한 모든 참가자는 평소에 접하기 어려운 기업 데이터를 분석하고 모델링 해 볼 기회를 얻을 수 있습니다.

경진대회 홈페이지

Active Competitions 에서 현재 진행중인 모든 경진대회를 확인 할 수 있습니다.

맨 위에 검색창이 있고 바로 아래 경진대회의 종류를 나타내는 여러 탭이 있습니다. 각각의 의미는 다음과 같습니다.

All competitions(모든 경진대회), Entered(본인이 참가한대회),Featured(머신러닝,딥러닝으로 예측을 수행하는 일반적인대회),Research(연구나 실험 목적을 갖는 특수한 형태의 대회),Getting Started(이제 막 입문한 사람들을 위한 가장 쉬운 대회),Playground(초보자를 위한 쉬운대회),Analytics(분석용대회),Community(커뮤니티에서 주관하는 대회)

  • Datasets - 데이터셋

전 세계 누구나 데이터를 올릴 수 있고 다른 사람이 올려둔 데이터를 자유롭게 사용하여 분석 결과를 공유할 수 있습니다.

covid 로 검색한 경우 Gold 메달이 있는데 많은 사람이 추천했다는 의미

  • Code - 코드(노트북)

코드 메뉴는 다른 사람이 올려 놓은 캐글코드(노트북)을 모아 놓은 페이지로 안내해 줍니다. 경진대회와 연관된 코드도 있고 데이터셋에 올라온 데이터를 분석한 코드도 있습니다.

regressions로 검색한 코드 역시 Gold 메달을 확인 할 수 있다.

추천수가 많은 순으로 검색하고 싶다면 정렬옵션(현재 Hotness)을 Most Votes 로 선택 하면 된다.

  • Discussions - 토론

경진대회를 진행하며 궁금한 점을 다른 사람에게 물어 볼 수도 있고 서로 의견을 공유하며 새로운 아이디어를 얻을 수 있습니다.

  • Courses - 강좌

캐글 관련 강좌를 들을 수 있습니다. 파이썬,머신러닝 입문,머신러닝 중급,데이터 시각화,판다스,SQL기초,SQL고급,딥러닝 기초 등 다양한 강좌가 있다.

 

4. 캐글러등급

캐글은 경진대회, 데이터셋,노트북,토론 마다 등급을 매깁니다. 등급을 높이기 위해서는 매달을 따야 합니다. 메달을 일정 개수 이상 모으면 등급이 올라갑니다.

메달을 따기 가장 쉬운 섹션이 바로 토론입니다. 토론에 실질 추천수가 1개 이상이면 동메달,5개 이상이면 은메달,10개 이상이면 금메달입니다.

등급 구성은 Novice,Contributor,Expert,Master,Grandmaster 와 같이 다섯 단계로 이루어 집니다.

처음은 Novice 등급으로 시작 합니다.

  • Contributor 는 '사진등록,거주지,직업,회사등록,휴대폰인증,노트북 1회실행,경진대회 1회 참여및 제출,1개 토론참여, 다른 게시물에 추천 1개' 조건을 만족하면 바로 업그레이드 됩니다.
  • Expert 조건은 경진대회 동메달 2개, 데이터셋 동메달 3개, 노트북 동메달 5개, 토론 동메달 50개 를 모두 만족해야 한다. 취업 우대사항에 캐글 Expert 를 내거는 기업이 있을 정도로 Expert는 데이터 과학자로서 실력을 갖추었다는 증표가 됩니다.
  • Master 조건은 경진대회 금메달1개,은메달 2개,데이터셋 금메달 1개,은메달 4개,노트북 은메달 10개,토론 은메달 50개 포함하여 총 200개 메달
  • Grandmaster 등급 조건은 경진대회 '솔로' 금메달 1개, 금메달 5개,데이터셋 금메달 5개,은메달 5개,노트북 금메달 15개, 토론 금메달 50개 포함하여 총 500개 메달

머신러닝 공부를 하다 보면 데이터를 캐글에서 가져 와서 가공하여 작업하는 것을 알 수 있습니다.

캐글이 무엇이고 어떻게 사용하는지 등을 데싸노트의 실전에서 통하는 머신러닝과 함께 살펴 보도록 하겠습니다.

위의 내용은 데싸노트의 실전에서 통하는 머신러닝에서 참고 하였습니다.

 

참고]

데싸노트의 실전에서 통하는 머신러닝

 

 

사업자 정보 표시
원당컴퓨터학원 | 기희경 | 인천 서구 당하동 1028-2 장원프라자 502호 | 사업자 등록번호 : 301-96-83080 | TEL : 032-565-5497 | Mail : icon001@naver.com | 통신판매신고번호 : 호 | 사이버몰의 이용약관 바로가기