강의자료/머신러닝

[캐글(Kaggle) 따라하기]02.타이타닉으로 캐글 경진대회 참여 방법 살펴 보기

파아란 기쁨 2022. 9. 30. 10:12
학습목표

캐글 가입부터 결과 제출까지 전체 프로세스를 배우자.

 

학습순서

캐글가입 -> 경진대회 참여 -> 주피터 노트북 설정 -> 결과 제출하기 -> 컨트리뷰터 되기 -> 예제코드 캐글 노트북 복사하기

 

 

1. 캐글 가입

  • kaggle.com 에 접속
  • 홈페이지 우측 상단의 Register 클릭하여 가입
  • 구글 계정으로 가입 가능

2. 경진대회 참여

  • 타이타닉 경진대회에 참여해 보자.

이 대회는 타이타닉호를 탄 승객들의 이름,성별,나이,지불한 운임,가족수 등 여러 정보를 주고 각 승객이 살았는지 죽었는지 예측하는 경진대회로 대회라기 보다는 튜토리얼 성격이 강하다.

1. Competitions 메뉴 클릭

2. 검색창에 Titanic 이라고 검색한 뒤 Titanic:Machine Learning from Disaster 찾아 클릭

3. 경진대회에 참여하기 위해 우측 상단의 [Join Competition] 을 클릭

만약 Submit Predictions 라고 뜨면 이미 참여가 완료된것임

 

 

3. 주피터 노트북 설정

캐글에서 제공하고 있는 주피터 노트북 환경을 설정 하는 방법에 대해 알아 보겠습니다.

1. 상단의 [Code] 메뉴를 클릭한다.

- 다른 사람이 작성한 노트북들의 목록을 확인 할 수 있는데 참고하면서 공부 할 수 있다.

2. 오른쪽 상단의 [New Notebook]을 클릭

3. 캐글 노트북 둘러보기

- 노트북 제목 변경 : 노트북 제목 변경 위치 클릭하여 제목 변경

- Data 탭 : titanic 디렉터리 아래 gender_submission.csv,test.csv,train.csv 파일이 있다.

train.csv 파일로 훈련하여 test.csv 파일로 결과를 예측하고 제출용 샘플 데이터인 gender_submission.csv 형식에 맞게 제출하면 된다.

 

캐글 노트북의 단축키는 Ctrl+Enter 은 현재 셀을 실행하고 Shift + Enter 은 현재 셀을 실행 하고 다음 셀로 넘어간다.

 

- 캐글노트북 조작법 살펴 보기

- 캐글노트북 단축키 살펴 보기

  • Esc + b : 선택한 셀 아래에 새로운 셀 생성
  • Esc + d + d : 현재 셀 삭제
  • Ctrl + Enter, Shift + Enter : 현재 셀 실행
  • Esc + a : 현재 셀 위에 셀 추가
  • Esc + x : 현재 셀 잘라내기
  • Esc + v : 잘라낸 셀 붙여넣기
  • Esc + m : 마크다운 셀로 변환
  • Esc + y : 코드 셀로 변환

 

4. 결과제출하기

제출하는 절차를 이해하기 위해 훈련과 예측을 따로 하지 않고 샘플 파일인 gender_submission.csv 의 내용 그대로를 제출 파일로 생성해 보자.

 

1. pandas의 read_csv() 함수로 gender_submission.csv 파일을 DataFrame 객체로 불러와서 출력해 보자.

import pandas as pd

submission = pd.read_csv('/kaggle/input/titanic/gender_submission.csv')
print(submission)

승객아이디(PassengerId) 와 생사여부(Survived) 칼럼에 기재되어 있다. 

 

2.  submission 객체를 제출 파일로 변환한다.

submission.to_csv('submission.csv',index=False)

인덱스는 제외하고 submission.csv 파일로 생성한다.

working 디렉토리에 파일이 생성 된것을 확인 할 수 있다.

3. 제출하기 전 커밋(commit)

생성된 submission.csv 파일을 제출하려면 먼저 커밋(commit)부터 해야 한다.

  • 오른 쪽 상단의 Save Version 버튼 클릭

  • 커밋 창이 뜨면 Version Name을 쓴 뒤(생략 가능) Save 버튼을 눌러서 저장

  • 왼쪽 하단에 다음과 같이 커밋을 진행 한다.

4. 제출 및 점수 확인하기

커밋을 했으니 이제 제출해 보자

  • Save Version 옆에 숫자가 0 에서 1로 변경 되어 있다.

  • 1로 표시된 영역을 클릭 후 Go to Viewer 를 클릭 하면 지금까지 작성한 코드를 확인 할 수 있다.
  • Data를 클릭하면 업로드 된 submission.csv 파일을 확인 할 수 있고 여기서 Submit 버튼을 클릭해서 제출한다.

  • 제출 완료 후 View My Submissions를 클릭해서 확인 가능하다.

  • 점수를 확인해 보면 0.76555 를 확인 할 수 있다.

이 점수는 0 부터 1 사이의 점수이므로 76프로 확률로 맞췄다는 의미이다.

 


여기서는 타이타닉 데이터를 훈련하지 않고 바로 제출하는 방법만을 익혀 보았는데요~

이 과정이 끝난 후 사진등록,거주지,직업,회사등록,휴대폰인증 및 토론1개 참여와 함께 다른 게시물에 추천 1개를 만족하면 바로 Contributor 등급이 됩니다.

이제 캐글러가 되었으니 캐글을 정복하러 떠나 보실까요^^

 

참고]

데싸노트의 실전에서 통하는 머신러닝

사업자 정보 표시
원당컴퓨터학원 | 기희경 | 인천 서구 당하동 1028-2 장원프라자 502호 | 사업자 등록번호 : 301-96-83080 | TEL : 032-565-5497 | Mail : icon001@naver.com | 통신판매신고번호 : 호 | 사이버몰의 이용약관 바로가기