Articles

데이터 마이닝 자습서:|Process|Techniques&Examples

데이터 마이닝이란 무엇입니까?

데이터 마이닝은 거대한 데이터 세트에서 잠재적으로 유용한 패턴을 찾는 프로세스입니다. 기계 학습,통계 및 인공 지능을 사용하여 정보를 추출하여 향후 이벤트 확률을 평가하는 다 분야 기술입니다. 데이터 마이닝에서 파생 된 통찰력은 마케팅,사기 탐지,과학적 발견 등에 사용됩니다.

데이터 마이닝에 대한 모든 발견하는,숨겨진 의심받지 않는,그 이전에 알 수 없는 아직 유효한 관계를 사이에 데이터입니다. 데이터 마이닝은 KDD(Knowledge Discovery in Data),지식 추출,데이터/패턴 분석,정보 수확 등이라고도합니다.

이 데이터 마이닝 튜토리얼에서,당신은 배의 기초 데이터 마이닝을 다음과 같-

  • 은 무엇인 데이터 마이닝?
  • 데이터의 유형
  • 데이터 마이닝 구현 과정
  • 비즈니스를 이해:
  • 데이터를 이해:
  • 데이 준비:
  • 데이터 변환:
  • 모델링:
  • 데이터 마이닝 기법
  • 과제의 구현 데이터의 광산:
  • 데이터 마이닝의 예:
  • 데이터 마이닝 Tools
  • 혜택의 데이터 마이닝:
  • 단점의 데이터 마이닝
  • 데이터마이닝 응용 프로그램

데이터의 유형

데이터 마이닝에서 수행할 수 있 다음과 같은 유형의 데이터

  • 관계형 데이터베이스
  • 데이터 창고
  • 고급 DB 정보 및 저장소
  • 객체-지향하고 개체-관계형 데이터베이스
  • 트랜잭션과 공간 데이터베이스
  • 이종과 기존 데이터베이스
  • 멀티미디어 스트리밍 데이터베이스
  • 텍스트 데이터베이스
  • 텍스트 마이닝과 웹사이닝

데이터 마이닝 구현 프로세스

데이터 마이닝 구현 과정
데이터 마이닝 구현 과정

공부하자는 데이터 마이닝 구현 프로세스에서 세부 사항

비즈니스를 이해:

이 단계에서,비즈니스와 데이터 마이닝 목표가 설정됩니다.

  • 먼저 비즈니스 및 고객 목표를 이해해야합니다. 를 정의해야 어떤 클라이언트가(는 많은 시간 심지어 그들은 알지 못한 자신)
  • 의 주식을 가지고 현재의 데이터 마이닝 시나리오이다. 자원,가정,제약 조건 및 기타 중요한 요소를 평가에 포함시킵니다.
  • 비즈니스 목표 및 현재 시나리오를 사용하여 데이터 마이닝 목표를 정의하십시오.
  • 좋은 데이터 마이닝의 계획은 매우 상세하고 개발해야 하는 모두 수행하는 비즈니스와 데이터 마이닝 목표입니다.

데이터 이해:

이 단계에서는 데이터 마이닝 목표에 적합한 지 여부를 확인하기 위해 데이터에 대한 정신 검사가 수행됩니다.

  • 첫째,데이터는 조직에서 사용할 수있는 여러 데이터 소스에서 수집됩니다.
  • 이러한 데이터 소스를 포함할 수 있 여러 데이터베이스 편평한 필터 또는 데이터 큐브입니다. 데이터 통합 프로세스 중에 발생할 수있는 객체 일치 및 스키마 통합과 같은 문제가 있습니다. 다양한 소스의 데이터가 쉽게 일치하지 않을 가능성이 있으므로 매우 복잡하고 까다로운 프로세스입니다. 예를 들어,테이블 A 는 cust_no 라는 엔티티를 포함하는 반면 다른 테이블 B 는 cust-id 라는 엔티티를 포함합니다.
  • 따라서 이러한 주어진 객체가 모두 동일한 값을 참조하는지 아닌지를 확인하는 것은 매우 어렵습니다. 여기서 데이터 통합 프로세스의 오류를 줄이기 위해 메타 데이터를 사용해야합니다.
  • 다음으로 단계는 획득 된 데이터의 속성을 검색하는 것입니다. 는 좋은 방법을 탐구하는 데이터에 대답하고 데이터 마이닝의 질문(정에서는 비즈니스 단계)쿼리를 사용하여,보고하고 시각화 도구입니다.
  • 쿼리 결과에 따라 데이터 품질을 확인해야합니다. 획득해야하는 경우 누락 된 데이터.

데이터 준비:

이 단계에서는 데이터를 생산 준비 상태로 만듭니다.

데이터 준비 프로세스는 프로젝트 시간의 약 90%를 소비합니다.

다른 소스의 데이터를 선택,정리,변형,형식화,익명화 및 구성해야합니다(필요한 경우).

데이터 청소는 잡음이 많은 데이터를 부드럽게하고 누락 된 값을 채워 데이터를”정리”하는 프로세스입니다.

예를 들어 고객 인구 통계 프로필의 경우 연령 데이터가 누락되었습니다. 데이터가 불완전하여 채워야합니다. 어떤 경우에는 데이터 이상치가있을 수 있습니다. 예를 들어 나이에는 300 값이 있습니다. 데이터가 일치하지 않을 수 있습니다. 예를 들어,고객의 이름은 다른 테이블에서 다릅니다.

데이터 변환 작업은 데이터를 변경하여 데이터 마이닝에 유용합니다. 다음과 같은 변화에 적용될 수 있습

데이터 변환:

데이터 변환 작업에 기여할 것으로의 성공이닝 과정입니다.

스무딩: 데이터에서 노이즈를 제거하는 데 도움이됩니다.

집계:요약 또는 집계 작업이 데이터에 적용됩니다. 즉,주간 판매 데이터를 집계하여 월별 및 연간 총계를 계산합니다.

일반화:이 단계에서 낮은 수준의 데이터 교체하여 더 높은 수준의 개념을 도움으로 개념의 계층 구조입니다. 예를 들어,도시는 카운티로 대체됩니다.

정규화:특성 데이터가 스케일 업 o 스케일 다운 될 때 정규화가 수행됩니다. 예:데이터는 정규화 후 -2.0~2.0 범위에 있어야합니다.

속성 구성: 이러한 특성은 데이터 마이닝에 도움이되는 주어진 속성 집합을 구성하고 포함합니다. 이 프로세스의 결과는 모델링에 사용할 수있는 최종 데이터 세트입니다.

모델링

이 단계에서는 수학적 모델을 사용하여 데이터 패턴을 결정합니다.

  • 비즈니스 목표에 따라 준비된 데이터 세트에 적합한 모델링 기술을 선택해야합니다.
  • 모델의 품질과 유효성을 테스트 할 시나리오를 만듭니다.
  • 준비된 데이터 세트에서 모델을 실행합니다.
  • 결과는 모델이 데이터 마이닝 목표를 충족시킬 수 있는지 확인하기 위해 모든 이해 관계자가 평가해야합니다.

평가:

이 단계에서 확인 된 패턴은 비즈니스 목표에 대해 평가됩니다.

  • 데이터 마이닝 모델에 의해 생성 된 결과는 비즈니스 목표에 대해 평가되어야합니다.
  • 비즈니스 이해를 얻는 것은 반복적 인 프로세스입니다. 사실 이해하는 동안 데이터 마이닝으로 인해 새로운 비즈니스 요구 사항이 제기 될 수 있습니다.
  • 배포 단계에서 모델을 이동하는 이동 또는 이동 금지 결정이 취해집니다.

배포:

배포 단계에서는 일상적인 비즈니스 운영에 데이터 마이닝 발견을 제공합니다.

  • 데이터 마이닝 과정에서 발견 된 지식이나 정보는 비 기술적 이해 관계자를 위해 이해하기 쉽게 만들어야합니다.
  • 데이터 마이닝 발견의 배송,유지 보수 및 모니터링을위한 자세한 배포 계획이 작성됩니다.
  • 최종 프로젝트 보고서는 프로젝트 중에 배운 교훈과 주요 경험으로 작성됩니다. 이는 조직의 비즈니스 정책을 개선하는 데 도움이됩니다.

데이터 마이닝 기법

데이터 마이닝 기법
데이터 마이닝 기법

1.분류:

이 분석은 데이터 및 메타 데이터에 대한 중요하고 관련된 정보를 검색하는 데 사용됩니다. 이 데이터 마이닝 방법은 다른 클래스의 데이터를 분류하는 데 도움이됩니다.

2. 클러스터링:

클러스터링 분석은 서로 같은 데이터를 식별하는 데이터 마이닝 기술입니다. 이 프로세스는 데이터 간의 차이점과 유사점을 이해하는 데 도움이됩니다.

3. 회귀 분석:

회귀 분석은 변수 간의 관계를 식별하고 분석하는 데이터 마이닝 방법입니다. 다른 변수의 존재를 감안할 때 특정 변수의 가능성을 식별하는 데 사용됩니다.

4. 연결 규칙:

이 데이터 마이닝 기술은 두 개 이상의 항목 간의 연결을 찾는 데 도움이됩니다. 그것은 데이터 세트에 숨겨진 패턴을 발견합니다.

5. 외부 감지:

이 유형의 데이터 마이닝 기법을 참조하여 관찰 데이터의 항목에서 데이터 집합이 일치하지 않는 예상되는 패턴이나 예상되는 동작입니다. 이 기술을 사용할 수 있습의 다양한에서 도메인을 등 침입 탐지,사기 또는 결함 감지,등등. 외부 탐지는 이상치 분석 또는 이상치 광업이라고도합니다.

6. 순차적 패턴

이 데이터 마이닝 기술하는 데 도움이 발견 또는 유사한 패턴을 식별 또는 트렌드에 트랜잭션 데이터에 대한 특정 기간입니다.

7. 예측:

예측은 추세,순차 패턴,클러스터링,분류 등과 같은 데이터 마이닝의 다른 기술의 조합을 사용했습니다. 그것은 미래의 사건을 예측하기위한 올바른 순서로 과거의 사건이나 인스턴스를 분석합니다.

데이터 광산 구현 과제:

  • 숙련 된 전문가가 데이터 마이닝 쿼리를 공식화하는 데 필요합니다.
  • Overfitting:작은 크기의 교육 데이터베이스로 인해 모델이 향후 상태에 맞지 않을 수 있습니다.
  • 데이터 마이닝을 필요가 큰 데이터베이스는 때때로 관리하기 어려운
  • 비즈니스 사례를 수정해야 할 수 있습을 결정을 사용하여 정보를 발견입니다.
  • 데이터 세트가 다양하지 않으면 데이터 마이닝 결과가 정확하지 않을 수 있습니다.
  • 통합에 필요한 정보에서 다른 유형의 데이터베이스와 글로벌 정보 시스템는 것은 복잡 할 수 있

데이터 마이닝 예:

이 데이터 마이닝 과정에 대해 알아 보자,데이터 마이닝과 함께 예:

예제 1:

장거리 서비스의 수익을 늘리고 자하는 통신 서비스 제공 마케팅 책임자를 고려하십시오. 을 위한 높은 투자 수익에서 자신의 판매 및 마케팅 노력을 고객 프로파일링은 중요합니다. 그는 나이,성별,소득,신용 기록 등과 같은 고객 정보의 방대한 데이터 풀을 가지고 있습니다. 그러나 수동 분석으로 장거리 전화를 선호하는 사람들의 특성을 결정하는 것은 불가능합니다. 데이터 마이닝 기술을 사용하여 그는 높은 장거리 통화 사용자와 그 특성 사이의 패턴을 발견 할 수 있습니다.

예를 들어,그는 배울 수 있다는 자신의 최고의 고객에게는 결혼한 여성 사이의 45 54 사람들보다 더 많은$80,000 습니다. 마케팅 노력은 그러한 인구 통계를 목표로 삼을 수 있습니다. 은행은 신용 카드 운영으로 인한 수익을 늘릴 수있는 새로운 방법을 찾고 싶어합니다. 그들은 수수료가 절반으로 줄어들면 사용량이 두 배가되는지 여부를 확인하기를 원합니다.

은행은 여러 년에 기록의 평균 잔액을 신용 카드 지불액,신용 한도를 사용,그리고 다른 주요 매개 변수입니다. 그들은 제안 된 새로운 비즈니스 정책의 영향을 확인하는 모델을 만듭니다. 데이터 결과에 따르면 타겟 고객 기반에 대해 수수료를 절반으로 줄이면 수익이 1 천만 달러 증가 할 수 있습니다.

데이터 마이닝 Tools

다음은 2 인기있는 데이터 마이닝에서 널리 이용되는 산업

R 언어:

R 언어가는 오픈 소스 도구에 대한 통계계산과 그래픽입니다. R 의 다양한 통계적인 통계적인 검사,시계열 분석,분류 및 그래픽 기술입니다. 효과적인 데이터 전달 및 저장 시설을 제공합니다.

여기에서 자세히 알아보기

오라클 데이터 마이닝

오라클 데이터 마이닝 대중적으로 안다는으로 ODM 모듈 오라클의 고급 분석 데이터베이스입니다. 이 데이터 마이닝 도구를 사용하면 데이터 분석가가 자세한 통찰력을 생성하고 예측을 할 수 있습니다. 고객 행동을 예측하고 고객 프로필을 개발하며 교차 판매 기회를 식별하는 데 도움이됩니다.

여기에서 자세히 알아보기

혜택의 데이터 마이닝:

  • 데이터 마이닝 기술은 회사가 얻을 수 지식 기반 정보입니다.
  • 데이터 마이닝은 조직이 운영 및 생산에서 수익성있는 조정을 할 수 있도록 도와줍니다.
  • 데이터 마이닝은 다른 통계 데이터 애플리케이션에 비해 비용 효율적이고 효율적인 솔루션입니다.
  • 데이터 마이닝은 의사 결정 프로세스에 도움이됩니다.
  • 는 추세와 행동의 자동화 된 예측뿐만 아니라 숨겨진 패턴의 자동화 된 발견을 용이하게합니다.
  • 그것을 구현할 수 있는 새로운 시스템을 뿐만 아니라 기존 플랫폼
  • 그것은 빠른 프로세스는 쉽게 그 사용자에 대해 분석하는 엄청난 양의 데이터에서는 더 적은 시간입니다.

단점의 데이터 마이닝

  • 가능성이 있는 회사의 판매할 수도 있습니다 유용한 정보를 고객의 다른 회사입니다. 예를 들어,아메리칸 익스프레스는 고객의 신용 카드 구매를 다른 회사에 판매했습니다.
  • 많은 데이터 마이닝 분석 소프트웨어 작동하기 어려운 필요한 사전 교육에서 작동 합니다.
  • 다른 데이터 마이닝 도구는 설계에 사용 된 다른 알고리즘으로 인해 다른 방식으로 작동합니다. 따라서 올바른 데이터 마이닝 도구를 선택하는 것은 매우 어려운 작업입니다.
  • 데이터 마이닝 기술은 정확하지 않은,그래서 그 심각한 결과가 발생할 수 있습니다.

데이터마이닝 응용 프로그램

응용 프로그램 사용
Communications 데이터 마이닝 기법을 통신에서 사용되는 부문에 고객의 행동을 예측하기를 제안하는 높게 타겟과 관련된 캠페인이다.
보험 데이터 마이닝는 데 도움이 보험 회사를 가격의 제품이 수익성과를 촉진 새로운 제안을 새로운 또는 기존의 고객입니다.
교육 데이터 마이닝의 혜택 교육에 액세스하는 학생의 데이터를 예측,성과 수준을 찾는 학생 또는 학생들의 그룹에있는 특별한주의가 필요합니다. 예를 들어,수학 과목에 약한 학생.
제조 도움으로 데이터 마이닝의 제조업체를 예측할 수 있습 마모를 생산의 자산입니다. 그들은 가동 중지 시간을 최소화하기 위해 그들을 줄이는 데 도움이되는 유지 보수를 예상 할 수 있습니다.
뱅킹 데이터 마이닝는 데 도움이 금융 부문의 시장 위험 관리 및 규정 준수를 수행할 수 있습니다. 은행이 신용 카드,대출 등을 발행할지 여부를 결정할 가능성이있는 채무 불이행을 식별하는 데 도움이됩니다.
소매 데이터 마이닝 기법을 도와 소매 쇼핑몰과 식료품점을 식별 및 준비의 가장세요한 항목에 세심한 위치. 그것은 상점 주인이 고객이 지출을 늘리도록 장려하는 제안을 내놓을 수 있도록 도와줍니다.
서비스 공급자 서비스 공급자는 휴대폰 및 유틸리티 산업에 사용 데이터 마이닝을 예측하는 이유 때 고객 자신의 회사입니다. 그들은 분석 결제 정보,고객 서비스의 상호 작용,이용자들의 신고사항을 회사에 할당하는 각각의 고객은 점수를 확률과 인센티브를 제공.
E-Commerce E-commerce 이용목적이 달성되면 지체 없이 파기 데이터 마이닝을 제공하는 교차 판매와 판매까지 자신의 웹사이트를 통해. 하나의 가장 유명한 이름은 아마존,사용자 데이터 마이닝 기술을 얻을 더 많은 고객으로 자신의 전자 상거래 저장합니다.
슈퍼 시장 데이터 마이닝을 할 수 있습 슈퍼마켓의 개발 규칙을 예측하는 경우 자신의 구매자가 될 가능성이 있습니다. 그들의 구매 패턴을 평가함으로써,그들은 임신 가능성이 가장 높은 여성 고객을 찾을 수 있습니다. 그들은 베이비 파우더,베이비 샵,기저귀 등과 같은 제품을 대상으로 시작할 수 있습니다.
범죄 수사 데이터 마이닝는 데 도움이 범죄 수사 기관에 배포하는 경찰 인력(는 범죄가 일어날 가능성이있을 때?),국경 횡단 등에서 검색 할 사람
생물정보학 데이터 마이닝에 도움을 내 생물학적 데이터에서 대용량 데이터에 모여 생물학 및 의학입니다.

요약:

  • 데이터 마이닝 정의:데이터 마이닝은 과거를 설명하고 데이터 분석을 통해 미래를 예측하는 것입니다.
  • 데이터 마이닝은 거대한 데이터 세트에서 정보를 추출하는 데 도움이됩니다. 그것은 데이터에서 지식을 채굴하는 절차입니다.
  • 데이터 마이닝 과정은 다음을 포함한 비즈니스의 이해,데이터를 이해하고,데이터 준비,모델링,진화,배포합니다.
  • 중요한 데이터 마이닝 기술은 Classification,clustering,회귀분석,연결 규칙,외부 detection,순차적인 패턴을 예측
  • R-언어 및 오라클 데이터 마이닝 눈에 띄는 데이터 마이닝 기법입니다.
  • 데이터 마이닝 기술은 기업이 지식 기반 정보를 얻는 데 도움이됩니다.
  • 의 주요 단점은 데이터 마이닝는 많은 분석 소프트웨어 작동하기 어려운 필요한 사전 교육에서 작동 합니다.
  • 데이터 마이닝에서 사용되는 다양한 산업과 같은 통신,보험,교육,제조,금융,소매,서비스 제공자,전자 상거래,슈퍼마켓 Bioinformatics.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다