Machine Learning & Data Analytics

What is data mining(데이터 마이닝)?

Genie Lee 2022. 2. 18. 23:26
728x90
반응형

데이터 마이닝 정의

데이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다. 다른 말로는 KDD(데이터베이스 속의 지식 발견, knowledge-discovery in databases)라고도 일컫는다. 

출처: WIKIPEDIA

 

데이 (Data)   : 우리가 알고있는 그 데이터이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말한다.

마이닝 (Mining) : 채굴, 채광, 채광 산업을 말한다. 채광이란 광산에서 광석을 캐내는것을 의미한다.

즉, 데이터마이닝이란 광산에서 광석을 캐내는 것에 비유한 것으로, 금광석에 극히 미량으로 포함된 금을 여러 단계를 거쳐 추출하듯이 "수 많은 데이터의 산에서 가치있는 유용한 정보를 찾아 내는 것" 이다.

출처: https://blog.embian.com/71


데이터마이닝 분석 방법 정리

분류 Classification

Classification은 데이터를 주어진 라벨(클래스)에 따라 분류하는 법을 학습하는 지도학습의 방법

 

군집화 Clustering
Clustering은 데이터를 보고 스스로 비슷한 것 끼리 클래스를 만들어 분류하는 비지도 학습의 방법

연관규칙 (장바구니 분석)

인터넷 쇼핑몰 및 오프라인 매장 등에서 고객이 한번에 구입하는 상품들을 분석하여 함께 판매되는 패턴이 강한 연관된 상품들을 찾는다. 예를 들어, 무선 마우스를 구입한 사람들은 건전지를 함께 구입한다. 라는 패턴을 분석할 수 있고 이를 바탕으로 무선 마우스를 구입한 고객에게 건전지의 구입을 추천할 수 있다. 

연속패턴

연관규칙과 유사하다. 연관규칙에 시간 정보를 추가하여 순차적인 구입 패턴을 분석하는 방법이다.

예를 들어, 무선 마우스를 구입한 사람들은 1달 정도 후에 키보드를 구입한다 라는 패턴을 찾을 수 있다. 이 규칙을 바탕으로 무선 마우스을 구입한 고객들에게 키보드를 추천할 수 있다.

 

728x90
반응형