반응형

'Do it! 데이터 과학자를 위한 실전 머신러닝' 서평단에 선정되어 책을 받고 빠르게 훑어봤다.

이 책은 기존 머신러닝 책과 차별화된 구성이 가장 큰 매력이다. 예를 들면, 머신러닝 모델을 회귀 모델과 분류 모델로 구분하는 것이 아니라 선형 모델, 트리 모델, 기타 모델, 그리고 비지도 학습 모델로 나누어져 있어, 서로 다른 모델들의 핵심 원리와 활용 방법을 함께 학습할 수 있는 구조로 되어 있다.

특히, 이 책은 이론뿐만 아니라 실제 모델의 구현에 집중한다. 일반적으로 머신러닝 또는 딥러닝 책을 읽다 보면 이론 설명 몇 줄, 관련 수식 몇 줄, 실습 코드로 구성되어 있다. 이러한 경우, 처음 책을 읽는 독자는 왜 저런 수식이 사용되는지 그리고 선형대수학이 어떻게 활용되는지는 전혀 이해하지 못한 채 반복 학습으로 인해 직감으로 전체적인 흐름만 이해하고 중요한 개념은 약한 경우가 많다. 하지만 이 책은 곳곳에 Regularization, SVD(특잇값 분해), PCA(주성분 분석) 등 선형대수를 통해 학습한 지식을 머신러닝 모델 학습에서 어떻게 활용할 수 있는지, 예를 들면, L1 규제와 L2 규제를 적용하면 왜 모델이 일반화 성능이 좋아지는가와 같이 다른 책에 포함된 각각의 수식들과 코드들이 의미하는 바가 무엇인지 다른 책으로는 배울 수 없는 내용이 많이 포함되어 있어서 좋았다.

그리고 이번에 나를 선정해 준 출판사인 이지스퍼블리싱은 Do it! 시리즈로 딥러닝 입문, 데이터 분석을 위한 판다스 입문, 첫 통계 with 베이즈 등 데이터 과학자가 되기 위해 필요한 지식을 쌓을 수 있는 책들을 출판해 줘서 나의 꿈을 향해 달려가는 데 있어서 많은 도움이 되는 출판사이다. 하지만 이 책은 앞에 내가 언급한 책들과는 다르게 난이도는 어려운 편에 속한다. 따라서 이 책을 효과적으로 학습하기 위해서는 먼저 scikit-learn을 활용하여 회귀 또는 분류와 같은 기본적인 머신러닝 모델을 실습해 보는 것이 좋다. 예를 들어, 타이타닉 생존자 예측과 같은 대표적인 실습을 진행한다면 머신러닝 파이프라인에 대해 전반적인 이해를 할 수 있다. 또한, 행렬과 벡터를 다루는 선형대수학과 과거의 결과를 기반으로 미래를 예측하는 베이즈 통계학에 대한 개념을 충분히 학습하는 것을 권장한다.