TUGAS 10 DATA MINING SEMESTER 6

Supervise Learning (Prediksi) & Algoritma yang ada didalamnya (minimal 30 algoritma Prediksi)

1. Regresi Linier: Algoritma ini digunakan untuk memprediksi nilai kontinu berdasarkan hubungan linier antara variabel dependen dan independen. Misalnya, memprediksi harga rumah berdasarkan luas tanah dan jumlah kamar.

2. Regresi Logistik: Cocok untuk klasifikasi biner di mana tujuannya adalah memprediksi probabilitas hasil yang mungkin berdasarkan variabel independen. Contohnya, memprediksi apakah seorang pelanggan akan membeli produk berdasarkan data demografis mereka.

3. K-Nearest Neighbors (KNN): Metode ini mengklasifikasikan berdasarkan mayoritas voting dari tetangga terdekat di sekitar titik data yang baru. KNN cocok untuk dataset dengan data berkelompok atau tidak terstruktur.

4. Decision Trees: Model ini membangun serangkaian keputusan hierarkis untuk memprediksi nilai target. Decision trees mudah diinterpretasikan dan cocok untuk dataset dengan aturan keputusan yang jelas.

5. Random Forest: Sejumlah besar decision trees bekerja bersama-sama untuk meningkatkan akurasi prediksi dan mengurangi overfitting. Cocok untuk dataset besar dengan fitur-fitur yang bervariasi.

6. Support Vector Machines (SVM): SVM mencari hyperplane terbaik untuk memisahkan kelas yang berbeda dalam ruang berdimensi tinggi. SVM efektif dalam dataset dengan jumlah fitur yang besar.

7. Naive Bayes: Berdasarkan teorema Bayes, Naive Bayes menghitung probabilitas kelas berdasarkan asumsi independensi antara fitur. Cocok untuk dataset dengan fitur kategorikal yang besar.

8. Neural Networks: Jaringan saraf yang mendalam dengan lapisan-lapisan tersembunyi untuk mempelajari pola yang kompleks dalam data. Cocok untuk dataset besar dengan struktur yang kompleks.

9. Gradient Boosting Machines (GBM): GBM membangun model prediktif dalam bentuk ensemble trees secara berurutan, memperbaiki kesalahan prediksi sebelumnya. Cocok untuk meningkatkan akurasi prediksi pada model yang sudah ada.

10. AdaBoost: Teknik ensemble learning yang menggabungkan beberapa weak learners untuk meningkatkan akurasi prediksi. Cocok untuk dataset yang tidak seimbang.

11. XGBoost: Implementasi dari gradient boosting yang sangat efisien dan cepat, sering digunakan untuk kompetisi data science. Cocok untuk dataset besar dengan fitur-fitur yang kompleks.

12. LightGBM: Framework gradient boosting yang dioptimalkan untuk kinerja tinggi dan efisiensi dalam penggunaan memori. Cocok untuk dataset besar dengan jumlah data yang besar.

13. CatBoost: Algoritma gradient boosting yang dirancang untuk menangani data kategori dan mengurangi kebutuhan untuk preprocessing data. Cocok untuk dataset dengan fitur-fitur kategori yang kompleks.

14. Ridge Regression: Regresi dengan penalti L2 yang membantu mengatasi overfitting dalam model linier. Cocok untuk regresi dengan banyak variabel independen.

15. Lasso Regression: Regresi dengan penalti L1 yang membantu dalam seleksi fitur dan mengurangi koefisien nol. Cocok untuk regresi dengan banyak variabel independen yang tidak relevan.

16. ElasticNet: Kombinasi dari L1 (Lasso) dan L2 (Ridge) regularization untuk mengatasi kelemahan masing-masing. Cocok untuk regresi dengan banyak variabel independen yang berkorelasi.

17. Principal Component Regression (PCR): Menggunakan PCA untuk mengurangi dimensi data dan kemudian menerapkan regresi. Cocok untuk mengurangi overfitting dalam regresi dengan banyak variabel independen.

18. Partial Least Squares Regression (PLSR): Metode yang menggabungkan teknik reduksi dimensi dengan regresi. Cocok untuk regresi dengan banyak variabel independen yang saling berkorelasi.

19. Gaussian Process: Metode probabilistik untuk memprediksi distribusi probabilitas atas hasil yang mungkin. Cocok untuk prediksi yang membutuhkan estimasi ketidakpastian.

20. Bayesian Regression: Pendekatan bayesian untuk regresi yang memperhitungkan ketidakpastian dalam estimasi parameter. Cocok untuk regresi dengan prior knowledge yang tersedia.

21. Quadratic Discriminant Analysis (QDA): Generalisasi dari LDA yang memperhitungkan matriks kovarians yang berbeda untuk setiap kelas. Cocok untuk klasifikasi dengan struktur kovarians yang berbeda di antara kelas-kelas.

22. Multi-layer Perceptron (MLP): Jaringan saraf yang terdiri dari beberapa lapisan yang dapat mempelajari representasi yang lebih kompleks. Cocok untuk data yang kompleks dan tidak linear.

23. Hidden Markov Model (HMM): Model stokastik untuk memodelkan urutan data yang diprediksi dengan status tersembunyi. Cocok untuk data urutan seperti teks atau waktu.

24. Conditional Random Fields (CRF): Model diskriminatif untuk memprediksi urutan data terstruktur, seperti teks atau gambar. Cocok untuk data yang memiliki hubungan spasial atau temporal.

25. K-Means Clustering: Algoritma untuk mengelompokkan data tanpa supervisi, yang dapat digunakan dalam prediksi label. Cocok untuk analisis cluster data.

26. Gaussian Mixture Model (GMM): Model probabilitas yang menggunakan beberapa distribusi Gaussian untuk memodelkan data yang kompleks. Cocok untuk memodelkan distribusi data yang tidak terstruktur.

27. Hierarchical Clustering: Mengelompokkan data dalam struktur pohon yang berjenjang berdasarkan jarak antara titik data. Cocok untuk analisis cluster dengan data hierarkis.

28. Self-Organizing Maps (SOM): Jaringan saraf tak berpengawasan untuk pemetaan data multidimensi ke ruang dua dimensi. Cocok untuk pemetaan data dan visualisasi.

29. Ensemble Learning: Menggabungkan beberapa model untuk meningkatkan kinerja prediksi, seperti Voting Classifier atau Bagging. Cocok untuk meningkatkan akurasi prediksi secara keseluruhan.

30. Deep Belief Networks (DBN): Jaringan saraf yang bertingkat untuk memodelkan data yang kompleks dan menangani masalah visi komputer atau NLP. Cocok untuk data dengan struktur hierarkis atau berjenjang.

Setiap algoritma di atas memiliki kelebihan dan kelemahan masing-masing, serta cocok untuk jenis data dan tujuan analisis yang berbeda. Pemilihan algoritma yang tepat sangat tergantung pada karakteristik data yang dimiliki dan masalah yang ingin diselesaikan dalam konteks penggunaannya.

Cari Blog Ini

PERANCANGAN BASIS DATA

TUGAS 10 DATA MINING SEMESTER 6

Komentar

Posting Komentar