TUGAS 1 DATA MINING SEMESTER 6
1. Proses atau Tahapan Data Mining
Proses atau tahapan data mining biasanya melibatkan beberapa langkah sistematis untuk mengekstraksi informasi yang berguna dari data mentah. Berikut adalah tahapan umum dalam proses data mining:
a. Pemahaman Bisnis (Business Understanding)
- Identifikasi tujuan bisnis.
- Menentukan masalah yang ingin dipecahkan dengan data mining.
- Mendefinisikan tujuan data mining berdasarkan kebutuhan bisnis.
b. Pemahaman Data (Data Understanding)
- Mengumpulkan data yang relevan.
- Memeriksa kualitas data dan memahami struktur data.
- Mengeksplorasi data untuk menemukan pola awal dan anomali.
c. Persiapan Data (Data Preparation)
- Membersihkan data dari kesalahan dan inkonsistensi.
- Mengatasi data yang hilang atau tidak lengkap.
- Mengubah dan menyatukan data dari berbagai sumber.
- Memilih fitur atau atribut yang relevan untuk analisis.
d. Pemodelan (Modeling)
- Memilih teknik atau algoritma data mining yang sesuai.
- Membangun model menggunakan data yang sudah dipersiapkan.
- Mengkalibrasi parameter model dan menguji performanya.
e. Evaluasi (Evaluation)
- Mengevaluasi model untuk memastikan bahwa model tersebut memenuhi tujuan bisnis.
- Menggunakan metrik evaluasi yang relevan seperti akurasi, presisi, recall, dan lain-lain.
- Memeriksa model terhadap data yang belum pernah dilihat (data uji) untuk menghindari overfitting.
f. Implementasi (Deployment)
- Mengintegrasikan model ke dalam sistem bisnis.
- Membuat laporan atau dashboard untuk mempresentasikan hasil data mining.
- Memonitor dan memelihara model secara berkelanjutan untuk memastikan performanya tetap baik.
g. Pemeliharaan (Maintenance)
- Memastikan model tetap relevan dan akurat dengan melakukan retraining secara periodik.
- Menangani perubahan dalam data atau tujuan bisnis.
- Melakukan pembaruan terhadap model dan data sesuai kebutuhan.
2. RISP-DM (Cross-Industry Standard Process for Data Mining)
CRISP-DM (Cross-Industry Standard Process for Data Mining) adalah metodologi yang digunakan secara luas untuk memandu proses data mining. CRISP-DM menyediakan kerangka kerja yang terstruktur dan terorganisir untuk melakukan proyek data mining, dengan enam fase utama. Berikut adalah penjelasan tentang setiap fase dalam CRISP-DM:
1. Pemahaman Bisnis (Business Understanding)
- Tujuan: Memahami tujuan dan kebutuhan bisnis serta mengubahnya menjadi masalah data mining yang spesifik.
- Aktivitas: Menentukan tujuan proyek, mengidentifikasi kriteria keberhasilan, dan membuat rencana proyek yang detail.
2. Pemahaman Data (Data Understanding)
- Tujuan: Mengumpulkan data awal dan memahami data untuk mengidentifikasi masalah potensial dan mendapatkan wawasan awal.
- Aktivitas: Mengumpulkan data, mengeksplorasi data, memeriksa kualitas data, dan memahami data secara keseluruhan.
3. Persiapan Data (Data Preparation)
- Tujuan: Menyiapkan data akhir yang akan digunakan dalam proses modeling.
- Aktivitas: Membersihkan data, mengatasi data yang hilang atau tidak lengkap, menggabungkan data dari berbagai sumber, dan memilih fitur yang relevan.
4. Pemodelan (Modeling)
- Tujuan: Memilih teknik pemodelan yang sesuai dan membangun model data mining.
- Aktivitas: Memilih teknik pemodelan, membangun model, mengatur parameter model, dan menguji model.
5. Evaluasi (Evaluation)
- Tujuan: Mengevaluasi model untuk memastikan bahwa model tersebut memenuhi tujuan bisnis dan siap untuk diimplementasikan.
- Aktivitas: Mengevaluasi hasil model, memvalidasi model dengan data uji, dan meninjau proses untuk memastikan tidak ada langkah yang terlewat.
6. Implementasi (Deployment)
- Tujuan: Mengintegrasikan model ke dalam sistem bisnis dan mengimplementasikannya untuk penggunaan sehari-hari.
- Aktivitas: Membuat rencana implementasi, mengintegrasikan model ke dalam sistem bisnis, membuat laporan atau dashboard, dan melatih pengguna akhir.
CRISP-DM adalah metodologi yang iteratif, yang berarti bahwa fase-fase tersebut tidak selalu dijalankan secara linear. Proyek data mining sering kali membutuhkan iterasi dan revisi berdasarkan umpan balik dan penemuan baru selama proses berlangsung.
Dengan menggunakan CRISP-DM, organisasi dapat memastikan bahwa proyek data mining mereka terstruktur dengan baik dan fokus pada tujuan bisnis yang spesifik, sehingga meningkatkan peluang keberhasilan proyek tersebut.
3. SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA (Sample, Explore, Modify, Model, Assess) adalah metodologi yang digunakan dalam proses data mining yang dikembangkan oleh SAS Institute. Metodologi ini menyediakan langkah-langkah yang terstruktur untuk membantu peneliti data dalam mengekstraksi pengetahuan dari data. Berikut adalah penjelasan mengenai setiap tahapan dalam SEMMA:
1. Sample (Sampel)
- Tujuan: Mengambil sampel data yang representatif dari kumpulan data yang lebih besar.
- Aktivitas: Mengambil subset data untuk membuat proses analisis lebih efisien dan mengurangi waktu komputasi. Data sampel harus cukup besar untuk mendukung analisis yang valid.
2. Explore (Eksplorasi)
- Tujuan: Mengeksplorasi dan memahami data untuk menemukan pola awal, hubungan, dan anomali.
- Aktivitas: Menggunakan teknik visualisasi dan statistik deskriptif untuk memahami distribusi data, mengidentifikasi outlier, dan mengeksplorasi hubungan antar variabel.
3. Modify (Modifikasi)
- Tujuan: Menyiapkan dan membersihkan data untuk analisis lebih lanjut.
- Aktivitas: Mengubah data dengan membersihkan, mengubah format, mengatasi data yang hilang, membuat variabel baru, dan mengurangi dimensi data untuk meningkatkan kualitas data dan membuatnya siap untuk tahap pemodelan.
4. Model (Pemodelan)
- Tujuan: Membangun model yang dapat memprediksi atau menjelaskan perilaku berdasarkan data.
- Aktivitas: Memilih teknik pemodelan yang sesuai (seperti regresi, decision tree, neural networks, dll.), membangun model, melatih model dengan data yang telah disiapkan, dan mengoptimalkan parameter model untuk mendapatkan hasil terbaik.
5. Assess (Penilaian)
- Tujuan: Mengevaluasi model untuk memastikan bahwa model tersebut berkinerja baik dan memenuhi tujuan analisis.
- Aktivitas: Menggunakan metrik evaluasi seperti akurasi, presisi, recall, dan lain-lain untuk menilai performa model. Menguji model dengan data uji yang belum pernah dilihat untuk menghindari overfitting, serta menilai bagaimana model akan berkinerja dalam konteks bisnis yang sebenarnya.
Dengan mengikuti langkah-langkah dalam SEMMA, peneliti data dapat memastikan bahwa proses data mining mereka dilakukan secara terstruktur dan sistematis, sehingga hasil yang diperoleh dapat diandalkan dan relevan untuk pengambilan keputusan.
4. CCC (Computational, Cognitive, and Communication)
Komentar
Posting Komentar