2025년, 코딩은 선택이 아닌 필수!

2025년 모든 학교에서 코딩이 시작 됩니다. 먼저 준비하는 사람만이 기술을 선도해 갑니다~

기타/도서리뷰

[도서리뷰]데이터가 뛰어노는 AI놀이터 캐글

원당컴1 2021. 6. 8. 08:49

요즘에 인공지능에 관심이 있어서 공부를 하고 있는 중에 나는 리뷰어다 에서 "데이터가 뛰어노는 AI놀이터 캐글" 이라는 책을 제공받았습니다.

 

앞으로는 인공지능이 대세가 되어가고 있어서 머신러닝에 대해 공부하고 있었는데요~

이 책을 통해서 데이터 경진대회 플랫폼 캐글이 있다는 것을 알게 되었네요.

책을 받기 전에 캐글이 궁금해서 캐글사이트에 접속을 해 보았는데요~

영어로 되어 있는 사이트가 어디서 부터 접근을 해야 하는지 잘 모르겠네요.ㅠ.ㅠ

 

이 책은 경진대회의 상위권 진입을 목표로 하시는 분들을 위한 가이드북입니다.

(처음에 캐글 사용법을 간단하게 설명해 주고 있습니다.)

경진대회중에서도 특히 정형데이터를 다루는 대회 대상입니다.

예측대상이나 모델의 평가지표와 같은 문제 설정이 명확하게 주어진 가운데 성능이 높은 모델을 만들려면 어떻게 해야 하고 무엇을 주의 해야 할지~ 경진대회에서 일반적으로 주의해야 할 내용을 총 망라한 경진대회 대비용 책이라고 할 수 있습니다.

 

 


이 책의 구성


 

1장 : 경진대회

- 경진대회에 대해 자세히 소개 하고 있으며 경진대회 참가하는 방법, 캐글 사용법,다양한 경진대회 사례 등을 다루고 있습니다.

- 경진대회의 등급이나 순위에 따라 요즘 같이 인재 부족 시대에 취업의 지름길로 갈 수 있다는 것까지 자세히 다루고 있습니다.

2장 : 경진대회의 평가지표

- 경진대회에 임할 때는 문제의 개요.데이터의 내용, 예측 대상 등을 이해하여야 합니다. 대회 순위는 평가지표의 예측값이 좋고 나쁨을 평가한 점수에 따라 결정되므로 평가지표를 살펴 보아야 합니다.

- 이 책에서는 경진대회의 평가지표로 사용되는 회귀의평가지표,이진분류의 평가지표,다중클래스분류의 평가지표 등을 다루고 있습니다.

- 이 책의 장점은 이러한 부분들을 설명 후에 사용했던 대회등을 예를 들어 주어서 어떤 대회에서 이런 평가지표를 사용했었는지를 알기 쉽게 정리해 놓았다는 것입니다.

3장 :특징생성

- 인공지능에서 가장 중요한 것은 특징을 찾아서 모델을 구축하는 것이라고 할 수 있습니다.

- 이 책에서는 모델과 특징의 관계를 설명하고 변수를 변환해 특징을 만드는 여러가지 방법에 대해 다루고 있으며 실제 경진대회의 사례를 들어 설명을 하고 있습니다.

4장 : 모델구축

- 경진대회의 대부분은 모델에 학습데이터와 함께 목적변수를 제공하여 목적변수가 없는 데이터의 목적변수를 적절하게 예측할 수 있도록 학습시키는 지도학습에 해당 됩니다. 

- 이 책에서는 특징을 생성 후 모델을 구축후 정형 데이터를 다루는 GBDT 모델,신경망,선형모델,KNN 등에 대해 다루고 있으며 경진대회에서는 모델의 성능,연산속도,사용편의성,다양성으로 앙상블에서의 모델 성능 향상에 기여하는지 여부에 따라 모델을 선택하게 됩니다.

5장 : 모델평가

- 모델생성의 주된 목적은 새로운 데이터를 예측하는 것입니다. 이때 평가용 데이터의 예측 성능을 특정평가지표에 따른 점수로 나타내여 평가하는 것을 검증이라고 합니다.

- 대회에서 정확한 검증이 이루어지지 않으면 어떤 특징을 사용해야 할지 알 수 없습니다.

- 이 책에서는 홀드아웃검증,교차검증,층화 k-겹검증,그룹k-겹검증,LOO검증 등과 같은 검증 방법에 대해 살펴 봅니다.

6장 : 모델튜닝

- 모델이 최적화 되지 않으면 모델의 힘을 충분히 발휘하지 못할 수 있으므로 모델의 튜닝이 필요합니다.

- 이 책에서는 하이퍼파라미터 탐색방법,매개변수 튜닝,GBDT의 매개변수 튜닝 방법 등에 대해 다루고 있습니다.

7장 : 앙상블 기법

- 단일 모델의 점수에 한계가 있지만 여러개의 모델을 조합하면 점수가 올라 갈 수 있는데 이렇게 여러개의 모델을 조합하는 것을 앙상블 기법이라고 합니다.

- 이 책에서는 평균과 가중평균등을 이용한 단순한 앙상블기법에서 부터 홀드아웃 데이터의 예측값을 이용한 앙상블 기법까지 다양한 앙상블 기법 등을 설명하고 있으며 기존 경진대회 문제를 가지고 경진대회에서 활용한 앙상블 사례 등을 통해서 앙상블 사용법 등을 설명하고 있습니다.

 


이 책을 꼭 읽어야 할 분


 

1. 캐글과 같은 데이터 경진대회를 준비하시는 분

2. 캐글과 같은 데이터 경진대회가 무엇인지 궁금하시는 분

3. 경진대회에서 상위권 진입을 목표로 하시는 분

 


이 책을 읽기전에 먼저 선행하자.


 

1. 파이썬의 기초문법은 이해하자(인공지능 관련한 라이브러리 사용법 등도 배워 두자)

2. 머신러닝에 대한 개념은 이해하자.(머신러닝을 활용한 경진대회에 접근하기 위한 주옥같은 내용이 담겨있다.)

 

이 책을 읽고

이 책을 읽으면서 처음 알고리즘 공부를 하던 기억이 떠오르네요~

처음 알고리즘 책들을 접하면서 깨알같이 쓰여진 내용들이 까만것은 글자이고 하얀것은 종이인데 어떤 것을 의미하는지 잘은 모르겠지만 그래도 한번 읽고 두번 읽고 하면서 조금씩 내용을 깨닫게 되었던것 같네요.

처음 캐글에 대해 알지도 못하고 무작정 신청한 책이었지만~

한번 훑어보고 다시 한번 읽어 보니 글자가 보일듯 말듯 하지만 아직은 어렵고 생소하기만 하네요~

하지만 이 책을 읽으면서 또 하나의 목표를 가지게 되었고 데이터과학자에 도전하시는 분이시라면 한권쯤 소장하고 계속해서 읽어 보라고 권하고 싶네요~

이 책은 막막한 데이터의 바다속에 헤매고 있는 여러분에게 한줄기 등대의 빛이 될것이라는 생각이 들었습니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

 

 

원당컴퓨터학원에서는?

1. 4차 산업 시대의 흐름은 컴퓨터를 얼마나 이해하느냐에 따라 삶의 질이 틀려 질 수 있다는 것을 항상 염두에 두고 있습니다.

2. 알고리즘은 프로그래밍의 근원이 되는 문제해결 능력이며, 머신러닝은 IoT등에 의해 모여진 데이터를 활용하는 기법입니다.

3. 이에 따라 초,중,고 학생들이 알기 쉽게 이해하는 인공지능 부터 알고리즘까지 학생들의 실력에 맞춰 수업을 진행중에 있습니다.

4. 현재 초등학생이 고등학생이 되는 때에는 고교학점제 도입에 따라 자신이 전공하고자 하는 특기가 크게 부각 될것입니다.

5. IT 업체중 규모가 큰 곳에서는 코딩테스트(알고리즘테스트)로 블라인드 면접을 수행하는곳이 늘고 있습니다.

6. 미래 IT를 꿈꾸는 학생들의 산실이 되기 위해 항상 최선을 다하는 원당컴퓨터학원이 되겠습니다.

 

※ 정보영재 혹은 인공지능 관련 수업에 관해 궁금하신 분은 문의(032-565-5497) 주세요.

 

 

원당컴퓨터학원 커리큘럼

- OA : 학교 수행 평가에 꼭 필요한 컴퓨터 활용능력 향상

- IT 자격증 과정 : 취업대비,대학생인증제,승진을 위한 국가공인 자격증 취득과정

- 정보영재 : 정보올림피아드 및 알고리즘 대회/소프트웨어특기자전형/디미고 특별전형 대비/코딩테스트 대비를 위한 알고리즘 과정

- 프로젝트반 : 응용프로그래밍/웹프로그래밍/앱프로그래밍 등을 통해 직접 만들어 보면서 컴퓨터 프로그래밍 이해(소프트웨어 학생부종합전형/특성화고(디미고,선린고등) 특별전형대비)

- 인공지능 : 인공지능의 이해 및 실습을 통해 빅데이터 가공(4차 산업 시대의 축이 되는 인공지능 시대를 대비)

- 일반고,과고,영재고,특성화고,컴퓨터학과(SW) 대학생을 위한 내신대비 : python,java,c++,자료구조,알고리즘,이산수학 

 

사업자 정보 표시
원당컴퓨터학원 | 기희경 | 인천 서구 당하동 1028-2 장원프라자 502호 | 사업자 등록번호 : 301-96-83080 | TEL : 032-565-5497 | Mail : icon001@naver.com | 통신판매신고번호 : 호 | 사이버몰의 이용약관 바로가기