학습목표
- 캐글 가입부터 결과 제출까지 전체 프로세스를 배우자.
학습순서
- 캐글가입 -> 경진대회 참여 -> 주피터 노트북 설정 -> 결과 제출하기 -> 컨트리뷰터 되기 -> 예제코드 캐글 노트북 복사하기
1. 캐글 가입
- kaggle.com 에 접속
- 홈페이지 우측 상단의 Register 클릭하여 가입
- 구글 계정으로 가입 가능
2. 경진대회 참여
- 타이타닉 경진대회에 참여해 보자.
이 대회는 타이타닉호를 탄 승객들의 이름,성별,나이,지불한 운임,가족수 등 여러 정보를 주고 각 승객이 살았는지 죽었는지 예측하는 경진대회로 대회라기 보다는 튜토리얼 성격이 강하다.
1. Competitions 메뉴 클릭
2. 검색창에 Titanic 이라고 검색한 뒤 Titanic:Machine Learning from Disaster 찾아 클릭
3. 경진대회에 참여하기 위해 우측 상단의 [Join Competition] 을 클릭
만약 Submit Predictions 라고 뜨면 이미 참여가 완료된것임
3. 주피터 노트북 설정
캐글에서 제공하고 있는 주피터 노트북 환경을 설정 하는 방법에 대해 알아 보겠습니다.
1. 상단의 [Code] 메뉴를 클릭한다.
- 다른 사람이 작성한 노트북들의 목록을 확인 할 수 있는데 참고하면서 공부 할 수 있다.
2. 오른쪽 상단의 [New Notebook]을 클릭
3. 캐글 노트북 둘러보기
- 노트북 제목 변경 : 노트북 제목 변경 위치 클릭하여 제목 변경
- Data 탭 : titanic 디렉터리 아래 gender_submission.csv,test.csv,train.csv 파일이 있다.
train.csv 파일로 훈련하여 test.csv 파일로 결과를 예측하고 제출용 샘플 데이터인 gender_submission.csv 형식에 맞게 제출하면 된다.
캐글 노트북의 단축키는 Ctrl+Enter 은 현재 셀을 실행하고 Shift + Enter 은 현재 셀을 실행 하고 다음 셀로 넘어간다.
- 캐글노트북 조작법 살펴 보기
- 캐글노트북 단축키 살펴 보기
- Esc + b : 선택한 셀 아래에 새로운 셀 생성
- Esc + d + d : 현재 셀 삭제
- Ctrl + Enter, Shift + Enter : 현재 셀 실행
- Esc + a : 현재 셀 위에 셀 추가
- Esc + x : 현재 셀 잘라내기
- Esc + v : 잘라낸 셀 붙여넣기
- Esc + m : 마크다운 셀로 변환
- Esc + y : 코드 셀로 변환
4. 결과제출하기
제출하는 절차를 이해하기 위해 훈련과 예측을 따로 하지 않고 샘플 파일인 gender_submission.csv 의 내용 그대로를 제출 파일로 생성해 보자.
1. pandas의 read_csv() 함수로 gender_submission.csv 파일을 DataFrame 객체로 불러와서 출력해 보자.
import pandas as pd
submission = pd.read_csv('/kaggle/input/titanic/gender_submission.csv')
print(submission)
승객아이디(PassengerId) 와 생사여부(Survived) 칼럼에 기재되어 있다.
2. submission 객체를 제출 파일로 변환한다.
submission.to_csv('submission.csv',index=False)
인덱스는 제외하고 submission.csv 파일로 생성한다.
working 디렉토리에 파일이 생성 된것을 확인 할 수 있다.
3. 제출하기 전 커밋(commit)
생성된 submission.csv 파일을 제출하려면 먼저 커밋(commit)부터 해야 한다.
- 오른 쪽 상단의 Save Version 버튼 클릭
- 커밋 창이 뜨면 Version Name을 쓴 뒤(생략 가능) Save 버튼을 눌러서 저장
- 왼쪽 하단에 다음과 같이 커밋을 진행 한다.
4. 제출 및 점수 확인하기
커밋을 했으니 이제 제출해 보자
- Save Version 옆에 숫자가 0 에서 1로 변경 되어 있다.
- 1로 표시된 영역을 클릭 후 Go to Viewer 를 클릭 하면 지금까지 작성한 코드를 확인 할 수 있다.
- Data를 클릭하면 업로드 된 submission.csv 파일을 확인 할 수 있고 여기서 Submit 버튼을 클릭해서 제출한다.
- 제출 완료 후 View My Submissions를 클릭해서 확인 가능하다.
- 점수를 확인해 보면 0.76555 를 확인 할 수 있다.
이 점수는 0 부터 1 사이의 점수이므로 76프로 확률로 맞췄다는 의미이다.
여기서는 타이타닉 데이터를 훈련하지 않고 바로 제출하는 방법만을 익혀 보았는데요~
이 과정이 끝난 후 사진등록,거주지,직업,회사등록,휴대폰인증 및 토론1개 참여와 함께 다른 게시물에 추천 1개를 만족하면 바로 Contributor 등급이 됩니다.
이제 캐글러가 되었으니 캐글을 정복하러 떠나 보실까요^^
참고]
데싸노트의 실전에서 통하는 머신러닝
'강의자료 > 머신러닝' 카테고리의 다른 글
머신러닝 목차 (0) | 2024.02.29 |
---|---|
머신러닝] 교차검증으로 평가하기 (18) | 2023.12.13 |
[캐글(Kaggle) 따라하기]04. 타이타닉 문제 해결하기 (7) | 2022.11.15 |
[머신러닝 따라하기] 01.데이터 준비 (0) | 2022.09.30 |
9.1 캐글이란 (6) | 2022.09.23 |