top of page

Data Science Map For Your Predictive Analytics Journey

  • sompak
  • 2017년 3월 3일
  • 2분 분량

RapidMiner 본사 홈페이지에 게시된 빅데이터 분석에서의 여러가지 방법론과 알고리즘들을 그려낸 지도가 있어 포스팅 해 봅니다.

먼저 Data Preparation 이라는 넓은 바다를 볼 수 있습니다. 아마도 빅데이터 분석에 있어서 가장 시간을 할애 해 야 하는 작업 일 것 입니다. 이러한 작업을 RM 에서는 조인, 추가, 중복제거, 새로운 열 만들기 등의 Operator를 통해 이러한 시간 소요를 줄여 줄 것 입니다.

다음엔 위쪽으로 가장 큰 육지 영역인 지도 학습을 볼 수 있습니다. 지도 학습이란 과거 데이터를 활용하여 대상 변수에 대한 다른 데이터들의 패턴을 찾고 예측 하는 방법론 입니다.

이땅의 북서쪽에는 분류 분석 영역이 있습니다. 예측 목표의 변수가 이산형 혹은 명목형 변수일 때 사용하는 분석으로 Decision Tree, K-NN, Logistic Regression 등의 알고리즘 들이 있습니다.

남서쪽으로 가면 회귀 분석 영영이 있습니다. 목표 변수가 연속형인 경우 사용되는 분석으로 Linear, Polynominal 회귀 분석 등이 있습니다.

서쪽 육지에서 동쪽으로 향하다가 보면 해안가에 있는 Association rule 과 섬들의 연합인 Clustering 으로 구성된 비지도 학습 영역을 볼 수 있습니다. 비지도 학습은 지도학습과는 다르게 대상 변수가 없이 데이터 자체에서 가지는 패턴을 찾아 그룹화 합니다. Association 분석은 FP-Growth 알고리즘을 통해 자주 구입하는 품목들의 쌍을 추출 할 수 있습니다. Clustering은 비슷한 유형의 데이터 끼리 군집화 해주는 분석으로 K-means, K-Medoids 등의 알고리즘이 있습니다.

clustering 연합 위쪽으로 Deep learning 영역이 있으며, 해당 영역 앞에는 Neural network 영역이 막고 있습니다. 이는 Deep learning을 이해하고자 한다면 먼저 Neural network 알고리즘을 이해해야 한다는 뜻 일 것 같습니다.

다시 남쪽으로 이동하게 되면 이상치(Outlier)라는 큰 섬을 볼 수 있습니다. 이상치는 데이터내에 특이한 속성을 가지고 있는 데이터를 찾아내어 제거 함으로서 모델의 정확성을 높히고 잘못된 데이터 해석을 유발하는것을 방지 할 수 있습니다.

마지막으로 남서쪽에 Feature Selection 세상이 있습니다. 모델링의 정확성을 높히기 위해서 반복적인 실행을 통해 자동으로 칼럼을 선택하고 제거하게 됩니다.

이 지도로 모든 빅데이터 분석이 설명되지는 않겠지만, 조금은 흥미롭게 접근하는 방법이지 않았나 생각 됩니다. :)

 
 
 

Comentários


추천 게시물
최근 게시물
보관
태그 검색
공식 SNS 페이지
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square
A Complete Platform for Predictive Analytics
래피드마이너
bottom of page