기계학습의 12개 기법을 대한 훌륭한 사례들이 담겨 있는 책. 이론을 설명하는 대신 과정에 초점을 맞췄기 때문에, 프로그래밍을 조금 할 줄 알고 정량적으로 사고할 줄 아는 사람이면 누구나 이해하기 쉽다.
목차
옮긴이 서문 서문
1장 R 사용하기 1.1 기계학습을 위한 R 1.1.1 R 다운로드와 설치 1.1.2 IDE와 텍스트 편집기 1.1.3 R 패키지 설치 및 로드하기 1.1.4 기계학습을 위한 R 기초 1.1.5 R에 대해 더 읽을거리
2장 데이터 탐색(data exploration) 2.1 탐색(exploration) 대 확증(confirmation) 2.2 데이터란 무엇인가? 2.3 열의 데이터 형식 알아내기 2.4 의미 추측 2.5 수치요약 2.6 평균값, 중앙값, 최빈값(mode) 2.7 분위수(Quantile) 2.8 표준편차와 분산 2.9 탐색적 데이터 시각화 2.10 열 간 관계성을 시각화하기
3장 분류: 스팸 필터링 3.1 이것 아니면 저것: 이항 분류 3.2 조건부 확률을 찬찬히 알아보기 3.3 베이즈 스팸 분류기 개발 3.3.1 분류기를 정의하고 고난도 햄 데이터로 검증하기 3.3.2 모든 이메일 종류에 대해 분류기 검증 3.3.3 결과 개선
4장 순위 매기기: 자동 분류함(priority inbox) 4.1 순서를 모르는 대상을 어떻게 정렬할까? 4.2 이메일 메시지를 우선순위에 따라 정렬하기 4.2.1 이메일의 우선순위 특성 4.3 자동분류함 작성 4.3.1 특성값 추출을 위한 함수들 4.3.2 등급을 위한 가중치 설정법 4.3.3 이메일 스레드 활동에 대한 가중치 설정 4.3.4 학습 및 검증
5장 회귀 모형: 페이지 방문 수 예측 5.1 회귀 소개 5.1.1 기본 모형 5.1.2 가변수를 활용한 회귀 5.1.3 선형 회귀 간단 설명 5.2 웹 트래픽 예측 5.3 상관계수 정의
6장 정규화: 텍스트 회귀 6.1 데이터 열 사이의 비선형 관계: 직선을 넘어서 6.1.1 다항식 회귀 소개 6.2 과대적합을 막는 방법 6.2.1 정규화를 이용한 과대적합 방지 6.3 텍스트 회귀 6.3.1 로지스틱 회귀로 빠져나가기
7장 최적화: 암호 해독 7.1 최적화에 대한 소개 7.2 능선 회귀(Ridge Regression) 7.3 최적화로 암호해독하기
8장 PCA: 주가 지수 작성 8.1 자율학습(Unsupervised Learning)
9장 MDS: 미국 상원의원 유사성을 시각적으로 탐색하기 9.1 유사성에 기반한 군집화 9.1.1 다차원 척도법과 거리 측도에 대한 간략 소개 9.2 미 상원의원들은 어떻게 뭉쳐있는가? 9.2.1 미국 상원 기명 투표 데이터
10장 kNN: 추천 시스템 10.1 k-근접 이웃 알고리즘 10.2 R 패키지 설치 데이터
11장 소셜 네트워크 분석 11.1 소셜 네트워크 분석 11.1.1 네트워크로 생각하기 11.2 트위터 소셜 네트워크 데이터 해킹하기 11.2.1 구글 소셜그래프(SocialGraph) API 다루기 11.3 트위터 네트워크 분석 11.3.1 지역 군집 구조(Local Community Structure) 11.3.2 Gephi로 트위터 네트워크 군집 시각화하기 11.3.3 자신만의 “팔로우 추천” 엔진 제작하기