작성일 : 19-10-03 21:11
파이썬을 활용한 머신러닝 쿡북
 글쓴이 : happy
조회 : 11  

Machine Learning with Python Cookbook

파이썬을 활용한 머신러닝 쿡북

전처리에서 딥러닝까지, 판다스와 사이킷런 중심의 실전 문제 해결 200

파이썬을 활용한 머신러닝 쿡북

저자, 크리스 알본 / 역자, 박해선

 

저자 크리스 알본(Chris Albon)은 선거 모니터링에서부터 재난 구조에 이르기까지 십여 년간 통계학습과 인공지능, 소프트웨어 공학을 정치, 사회, 인도주의 활동에 적용해온 데이터  과학자이자 정치학자이다. 현재 크리스는 프런티어 마켓(frontier market)의 인터넷 사용자를 위해 와이파이 네트워크를 구축하는 케냐의 스타트업 BRCK의 최고데이터과학자(CDS) 이다.

옮긴이 박혜선은 구글 ML GDE(Machine Learning Google Developer Expert)이다. 기계공학을 전공했지만 졸업 후엔 줄곧 코드를 읽고 쓰는 일을 했다. 텐서플로 블로그(tensorflow.blog)를 운영하고 텐서플로 문서 번역에 기여하면서 소프트웨어와 과학의 경계를 흥미롭게 탐험하고 있다.

번역서는 국내 독자를 위해 모든 레시피 코드를 담은 깃허브(http://bit.ly/ml-cookbook-code) 저장소를 제공한다. 사이킷런과 케라스의 새 버전에 맞추어 꾸준히 업테이트 한다 함.

번역서의 정오표 내용은 블로그(http://bit.ly/ml-cookbook) 에 등록해 놓는다 함.


이 책에 대하여

일상적인 머신러닝 작업에 필요한 세부 사항을 다루는 주제는 제외되었다.

전문가를 위한 스위스 만능칼 같은 책이다. 일상적인 문제를 해결할 용도로 머신러닝 기술자의 책상에 모서리가 잔뜩 접힌 채 놓여 있으면 좋겠다. 이 책은 작업 기반 접근 방식으로 머신러닝을 다룬다.

데이터 과학자와 머신러닝 엔지니어가 모델을 만들 때 자주 사용하는 작업에 유용한 거의 200개에 달하는 독립적인 해결책을 담고 있다(이 책의 코드는 복사해서 붙여넣으면 실행됩니다).

실제 머신러닝 시스템을 만드는 사람들을 위한 참고 도서가 되는 것이 궁극적인 목표다.

예를 들어 1,000개의 범주와 누락된 데이터가 있는 수치 특성, 불균형한 클래스로 이루어진 범주형 타킷 벡터가 담긴 JSON 파일을 가지고 있다고 가정해보자. 이 문제를 해결하는 방안으로


이 책은 다음과 같은 레시피를 제공한다.

      JSON 파일을 적재하기(2.5)

      특성을 표준화하기(4.2)

      특성 딕셔너리를 인코딩하기(5.3)

      누락된 클래스 값을 대체하기(5.4)

      주성분을 사용해 특성을 줄이기(9.1)

      랜덤 탐색을 사용하여 최선의 모델 선택하기(12.2)

      랜덤 포레스트 분류기 훈련하기(14.4)

      랜덤 포레스트에서 중요한 특성 선택하기(14.7)

 

이 책은 다음과 같은 작업을 할 수 있도록 돕는다.

1.     코드를 복사해 붙여 넣을 수 있고 책에 포함된 작은 데이터 셋에서 실제로 동작한다는 확신을 가진다.

2.     설명을 통해 코드를 실행시키는 기술 이면에 있는 이론을 이해하고 어떤 매개변수가 중요한지 배웁니다.

3.     실전 애플리케이션을 구축하는 레시피 코드를 추가, 연결, 적용합니다.


누구를 위한 책인가?

이 책은 머신러닝 입문서가 아니다. 머신러닝 기본 개념에 익숙하지 않거나 머신러닝을 배운적이 없다면 이 책을 사지 마세요. 이 책은 머신러닝 이론과 개념에 익숙한 머신러닝 기술자를 위한 책이다. 이들에게는 매일 머신러닝 작업에서 마주치는 도전 과제를 해결하는 코드를 담은 참고 도서로 도움이 될 것이다.

이 책은 독자가 파이썬 프로그래밍과 패키지 관리에 익숙하다고 가정한다.

저자가 말하듯 이 책은 입문서가 아닌 머신러닝 엔지니어가 프로젝트 실행과정에서 막힐 때 참고하여 문제를 해결하도록 도움을 줄 수 있는 전처리에서 딥러닝까지, 판다스와 사이킷런 중시의 실전 문제 해결 200선이다.

데이터 과학자, 머신러닝 엔지니어에게 필요한 필독서가 될 것으로 강력 추천한다.

역자 박해선의 텐서플로 블로그는 ML, DL에 궁금한 독자라면 꼭 둘러보기를 권하고 싶다.