2025년, 코딩은 선택이 아닌 필수!

2025년 모든 학교에서 코딩이 시작 됩니다. 먼저 준비하는 사람만이 기술을 선도해 갑니다~

기타/도서리뷰

[북스포일러] 데싸노트의 실전에서 통하는 머신러닝

원당컴1 2022. 8. 18. 09:31

 

오늘 살펴볼 책은 골든래빗 출판사에서 출판한 "데싸노트의 실전에서 통하는 머신러닝"입니다.

이 책의 구성을 먼저 살펴 보겠습니다.

1단계 배경지식 익히기

  • 한눈에 살펴보는 머신러닝 - 인공지능,머신러닝,딥러닝의 개념을 살펴보고 가장 많이 사용하는 머신러닝 알고리즘 10개의 성능을 비교해 봅니다.
  • 파이썬 기초 익히기 - 머신러닝을 처음 도전하는 분들을 위해 머신러닝에서 사용하는 기본적인 파이썬을 살펴 봅니다.
  • 판다스와 넘파이 - 머신러닝을 사용하기 위해서는 필수 요소인 판다스와 넘파이 다루는 법을 살펴 봅니다.

2단계 답을 알려줘야 학습하는 지도학습 알고리즘

  • 선형회귀 : 보험료를 예측하는 문제를 실습하면서 머신러닝의 가장 기본적인 모델인 선형회귀 모델을 다루어 보고 머신러닝의 개념을 이해합니다.
  • 로지스틱회귀 : 유명한 타이타닉 생존자 예측 문제를 해결하면서 분류 알고리즘인 로지스틱 회귀에 대해 살펴 봅니다.
  • k-최근접 이웃 : 와인 등급 예측하기 문제를 통해서 결측치 처리하는 문제, 스케일링 방법등에 대해 살펴 봅니다.
  • 나이브 베이즈 : 문자 데이터셋을 분석해서 스팸 문자인지 아닌지 필터링 하면서 나이브 베이즈 모델(조건부 확률 기반의 분류모델)을 이해 합니다.
  • 결정트리 : 결정트리 모델은 스무고개와 같이 질문을 통해 대답을 찾아가는 모델입니다. 학력,교육연수,혼인상태,지업정보 등을 담은 데이터를 통해 연봉을 예측하면서 결정트리를 이해합니다.
  • 랜덤 포레스트 : 중고차 가격을 예측하면서  K-폴드교차검증과 랜덤 포레스트 알고리즘에 대해 알아봅니다.
  • XGBoost : 부스팅알고리즘은 트리 모델을 기반으로 한 최신 알고리즘 중 하나로 랜덤 포레스트보다 훨씬 빠른 속도와 더 좋은 예측 능력을 보여줍니다. 커플 성사 여부를 예측하면서 XGBoost 사용법을 살펴 봅니다.
  • LightGBM : 이상거래 예측하기 문제를 해결하면서 최신 부스팅 모델인 LightGBM 모델을 살펴 봅니다. LightGBM은 리프 중심 트리 분할 방식을 사용하여 XGBoost보다 빠르고 놓은 정확도를 보여 주는 경우가 많습니다.

3단계 비지도학습 알고리즘

  • K-평균 군집화 : 온라인 쇼핑몰에서 고객이 구매한 물품,검색한 물품,살펴본 물품 정보를 이용해 고객에게 추천 서비스를 제공합니다. 이때 K-평균군집화 알고리즘으로 분류하여 어떤 물건을 선택 했을때 해당 그룹의 물품을 추천해 봅니다.
  • 주성분 분석(PCA) : 주성분 분석의 목적은 데이터의 차원을 축소하는데 있습니다. 차원 축소를 하여 데이터 용량은 줄이되 가능한 그 특성을 보존해 내는 기법입니다. 많은 특징을 담고 있는 고객데이터셋을 축소하여 한눈에 예측하는 그래프를 그려 보면서 주성분 분석에 대해 알아 봅니다.

 

 

이 책은 가장 많이 사용되는 Top10 의 알고리즘을 살펴보고 그 알고리즘들이 어떤 경우에 사용되는지 하나씩 예를 들어서 분석을 하면서 알고리즘의 이해를 돕고 있습니다.

먼저 가장 기본이 되는 선형회귀 알고리즘 부터  캐글 컴피티션 우승자가 많이 사용하는 검증된 부스팅 모델인 LightGBM 모델까지 살펴 봅니다.

 

머신러닝을 공부하면서 머신러닝의 알고리즘에 대한 설명을 해 주는 문서들은 많지만 어떤 경우에 어떤 알고리즘을 사용해야 되는지 알려주는 문서들은 많지 않은것 같습니다.

실제로 같은 문제를 해결 하더라도 여러가지 알고리즘으로 접근이 가능한데, 어떤 알고리즘이 더 적합한지는 여러가지 알고리즘으로 훈련을 하고 매개변수를 직접 변경해 보기도 하면서 가장 좋은 방법을 찾아 내는 것이 데이터 과학자가 걸어가야 할 길인것 같은데요~

이 책은 먼저 문제를 정의하고 이 문제에서 사용할 수 있는 데이터를 살펴 보고 그 데이터를 사용하기 위해 전처리 과정(결측치 처리,훈련데이터와 테스트 데이터 분리,필요에 따른 스케일링 등)을 거쳐 모델을 훈련하고 훈련한 결과의 예측값을 살펴 보면서 우리가 데이터과학자가 되어 데이터 분석하는 방법에 대한 이해를 실습을 통해서 스스로 깨닫게 만들어 줍니다.

 

이 책은 머신러닝에 입문하려는 분들이 처음 접하기 쉽게 파이썬 기초,넘파이와 판다스에 대해 정리를 해주고 있어서 프로그래밍을 했던 분들이라면 무리 없이 따라 하실 수 있도록 구성이 되어 있습니다.

머신러닝 입문서가 정말 많은 것은 사실이지만 입문 하시는 분들이 쉽게 접근 할 만한 책은 많지 않은것 같아요.

이 책을 읽으면서 느낀 것은 머신러닝 입문하는 분들에게 한줄기 빛이 되어 줄것 같은 생각이 드네요.

 

이 책은 골든래빗 출판사에서 전자책으로 제공받아 북스포일러를 작성하였습니다.

사업자 정보 표시
원당컴퓨터학원 | 기희경 | 인천 서구 당하동 1028-2 장원프라자 502호 | 사업자 등록번호 : 301-96-83080 | TEL : 032-565-5497 | Mail : icon001@naver.com | 통신판매신고번호 : 호 | 사이버몰의 이용약관 바로가기