Metode Proses Data Mining yang Umum Digunakan

Apa itu Data Mining?


Data mining adalah sebuah proses analisis yang digunakan untuk menggali informasi berharga dari suatu kumpulan data besar. Tujuannya adalah untuk menemukan pola-pola tersembunyi, hubungan, atau tren yang dapat memberikan wawasan yang berharga dan mendukung pengambilan keputusan. Data mining adalah sebuah proses pencarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Teknik data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Namun tidak semua pekerjaan pencarian informasi dapat dinyatakan sebagai data mining.

Selain itu, data mining juga memainkan peran penting dalam mendukung perkembangan kecerdasan buatan dan analisis prediktif. Dengan menggali informasi dari data yang ada, metode data mining seperti CRISP-DM dan SEMMA menjadi landasan bagi pengembangan model prediktif yang dapat memprediksi perilaku masa depan, mengoptimalkan proses bisnis, dan mendukung pengambilan keputusan yang lebih proaktif dan cerdas. Dengan demikian, data mining menjadi sebuah alat yang sangat berharga dalam mengubah data menjadi pengetahuan yang dapat digunakan untuk mencapai tujuan bisnis dan meningkatkan kinerja organisasi.

Apa saja Proses atau tahapan data mining?


Proses atau tahapan dalam data mining mengacu pada langkah-langkah yang diikuti untuk menganalisis data dan menghasilkan informasi yang berharga. Berikut adalah penjelasan singkat untuk masing-masing metodologi atau model proses data mining yang umum digunakan:

1. Cross-Industry Standard Process for Data Mining (CRISP-DM)

        Cross-Industry Standard Process for Data Mining (CRISP-DM) yang dikembangkan pada tahun 1996 oleh analis dari beberapa industri seperti Daimler Chrysler, NCR, dan SPPSS, menyediakan proses standar dari data mining sebagai strategi pemecahan masalah secara umum dari bisnis maupun unit penelitian. CRISP-DM adalah sebuah metodologi yang terdiri dari enam fase adaptif yang saling terkait. Fase-fase tersebut adalah:
  1. Pemahaman Bisnis (Business Understanding): Memahami tujuan bisnis dan masalah yang ingin diselesaikan melalui data mining.
  2. Pemahaman Data (Data Understanding): Menyelidiki data yang tersedia, mengevaluasi kualitas data, dan memahami karakteristiknya.
  3. Persiapan Data (Data Preparation): Menyiapkan data untuk analisis dengan melakukan pembersihan, transformasi, dan integrasi data.
  4. Pemodelan (Modeling): Menerapkan teknik data mining seperti clustering, classification, atau regression untuk mengidentifikasi pola atau hubungan dalam data.
  5. Evaluasi (Evaluation): Mengevaluasi kualitas dan kinerja model yang dibuat pada fase pemodelan.
  6. Penyebaran (Deployment): Mengimplementasikan hasil analisis ke dalam keputusan bisnis atau proses operasional.

2. SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA merupakan singkatan dari Sample, Emplore, Modify, Model, dan Assess. Metode ini dapat ditemukan oleh SAS Institute yang dapat digunakan untuk memudahkan penggguna untuk memprediksi tentang variable-variabel yang mengacu melakukan proses sebuah proyek data mining. SEMMA adalah model proses data mining yang juga terdiri dari lima tahapan berurutan:
  1. Sample: Mengambil sampel data yang representatif untuk analisis.
  2. Explore: Mengeksplorasi data untuk mengidentifikasi pola atau tren yang menarik.
  3. Modify: Melakukan modifikasi pada data, seperti penggabungan variabel atau penghapusan noise.
  4. Model: Membangun model prediktif atau deskriptif menggunakan teknik data mining.
  5. Assess: Mengevaluasi dan memvalidasi model yang dibuat untuk memastikan kualitas dan kegunaannya.

3. CCC (Computational, Cognitive, and Communication)

CCC adalah pendekatan yang menekankan tiga aspek utama dalam data mining:
  1. Computational (Komputasi): Melibatkan penggunaan algoritma dan teknik komputasi untuk menganalisis data secara efisien.
  2. Cognitive (Kognitif): Memperhatikan peran manusia dalam menginterpretasi hasil analisis data dan mengambil keputusan yang tepat.
  3. Communication (Komunikasi): Menyoroti pentingnya penyajian hasil analisis secara jelas dan mudah dimengerti bagi pemangku kepentingan.

Dengan memahami dan mengikuti proses atau tahapan yang disarankan oleh CRISP-DM, SEMMA, atau CCC, organisasi dapat melakukan analisis data dengan lebih sistematis dan mendapatkan wawasan yang lebih berharga dari data yang dimiliki.

sumber :
MODUL 01 Konsep Dasar Data Mining Gede Aditra Pradnyana, S.Kom., M.Kom. Dr. Ketut Agustini,S.Si., M.Si.



Komentar

Postingan populer dari blog ini

Data Preparation dan Data Visualization: Langkah Penting dalam Analisis Data

Supervise Learning (Klasifikasi) dan Contoh Algoritma Yang Ada Didalamnya

Pre-prosesesing Data Cleaning, Data Collection, Data Transform, Data Reduction