Supervise Learning (Prediksi) dan Contoh Algoritma Yang Ada Didalamnya

Supervised Learning untuk prediksi, juga dikenal sebagai regresi, bertujuan untuk memprediksi nilai numerik atau kontinu berdasarkan data masukan. Model regresi dilatih dengan data yang memiliki pasangan nilai input dan output, kemudian belajar untuk menemukan hubungan antara keduanya. Proses ini melibatkan beberapa langkah penting, mulai dari pengumpulan dan pra-pemrosesan data, pemilihan algoritma yang tepat, hingga pelatihan dan evaluasi model. Data pra-pemrosesan memastikan bahwa data bersih dan dalam format yang sesuai untuk pelatihan model. Pembagian data menjadi set latih dan uji membantu dalam mengevaluasi kemampuan model untuk generalisasi. Pemilihan algoritma regresi yang sesuai dengan kompleksitas data sangat penting untuk mendapatkan model yang akurat dan efisien. Evaluasi model menggunakan metrik seperti MAE, MSE, dan R-squared memastikan bahwa model memiliki kinerja yang baik dan dapat memprediksi dengan akurasi yang memadai pada data baru.

Ada berbagai macam algoritma supervised learning yang dapat digunakan, baik untuk klasifikasi maupun regresi. Berikut adalah 30 contoh algoritma supervised learning:

1. Gradient Boosted Decision Trees (GBDT)

GBDT adalah metode ensemble yang menggunakan pohon keputusan sebagai dasar dan meningkatkan akurasi dengan menggabungkan banyak pohon yang dilatih secara bertahap. Setiap pohon baru berusaha mengurangi kesalahan yang dibuat oleh pohon-pohon sebelumnya.

2. Stochastic Gradient Descent (SGD)

SGD adalah metode optimasi untuk menemukan parameter optimal dari model pembelajaran mesin dengan memperbarui parameter menggunakan gradient descent pada subset data acak dari keseluruhan dataset.

3. K-Nearest Neighbors (k-NN) Regression

Metode regresi non-parametrik yang memprediksi nilai target berdasarkan rata-rata dari k tetangga terdekat di ruang fitur. Kriteria kedekatan biasanya berdasarkan jarak Euclidean.

4. Elastic Net Regression

Kombinasi dari regresi Lasso dan Ridge yang mengatur kompleksitas model melalui penalti L1 (absolut) dan L2 (kuadrat) untuk mengatasi masalah multikolinearitas dan seleksi fitur.

5. Ordinal Logistic Regression

Varian dari regresi logistik yang digunakan untuk prediksi variabel target ordinal (kategori yang memiliki urutan).

6. Bayesian Ridge Regression

Regresi linear yang menggunakan pendekatan Bayesian untuk memperkirakan distribusi parameter dan menerapkan regularisasi Ridge untuk menghindari overfitting.

7. Convolutional Neural Networks (CNN)

Jaringan saraf yang dirancang untuk pengenalan gambar dan data spasial, menggunakan lapisan konvolusi untuk mengekstraksi fitur dari input gambar.

8. Recurrent Neural Networks (RNN)

Jenis jaringan saraf yang dirancang untuk data urutan seperti teks atau data time series, menggunakan umpan balik internal untuk memproses urutan data.

9. Long Short-Term Memory (LSTM)

Varian dari RNN yang dirancang untuk mengatasi masalah vanishing gradient, dengan menggunakan sel memori yang dapat menyimpan informasi dalam jangka waktu panjang.

10. Voting Classifier/Regressor

Metode ensemble yang menggabungkan prediksi dari beberapa model dasar (base models) dengan cara voting (untuk klasifikasi) atau rata-rata (untuk regresi) untuk membuat prediksi akhir.

11. Regresi Linear

Model dasar yang memprediksi nilai target sebagai kombinasi linear dari variabel input (fitur).

12. Regresi Logistik

Model klasifikasi yang menggunakan fungsi logistik (sigmoid) untuk memprediksi probabilitas dari kelas target biner.

13. K-Nearest Neighbors (KNN)

Algoritma klasifikasi yang menentukan kelas target berdasarkan mayoritas kelas dari k tetangga terdekat di ruang fitur.

14. Decision Tree

Model prediktif yang memetakan observasi tentang suatu item ke kesimpulan target melalui pohon keputusan berbasis aturan if-then.

15. Random Forest

Metode ensemble yang menggunakan banyak pohon keputusan acak untuk meningkatkan akurasi dan mengurangi overfitting dibandingkan dengan pohon keputusan tunggal.

16. Support Vector Machine (SVM)

Algoritma klasifikasi yang menemukan hyperplane optimal yang memisahkan data dari berbagai kelas dengan margin maksimum.

17. Naive Bayes

Algoritma klasifikasi probabilistik berdasarkan Teorema Bayes dengan asumsi independensi antara fitur-fitur.

18. Gradient Boosting Machines (GBM)

Metode ensemble yang mirip dengan GBDT, menggabungkan banyak model lemah secara bertahap untuk meningkatkan akurasi dengan meminimalkan kesalahan.

19. XGBoost

Implementasi yang sangat efisien dari algoritma gradient boosting yang dioptimalkan untuk kecepatan dan kinerja.

20. Jaringan Syaraf Tiruan (JNT)

Model komputasi yang terinspirasi dari jaringan saraf biologis, terdiri dari neuron yang saling terhubung dan mampu belajar dari data.

21. AdaBoost (Adaptive Boosting)

Metode boosting yang secara iteratif menambahkan model baru dengan memberi bobot lebih pada observasi yang salah klasifikasi oleh model sebelumnya.

22. CatBoost (Categorical Boosting)

Algoritma gradient boosting yang dioptimalkan untuk menangani data kategorikal secara efisien dan otomatis.

23. LightGBM (Light Gradient Boosting Machine)

Implementasi gradient boosting yang dioptimalkan untuk efisiensi memori dan kecepatan, menggunakan teknik leaf-wise growth yang lebih cepat.

24. Ridge Regression

Regresi linear dengan penalti L2 untuk mencegah overfitting dengan mengurangi kompleksitas model.

25. Lasso Regression

Regresi linear dengan penalti L1 yang memungkinkan seleksi fitur otomatis dengan mengecilkan koefisien fitur yang tidak relevan ke nol.

26. Quadratic Discriminant Analysis (QDA)

Metode klasifikasi yang memisahkan data ke dalam kategori berdasarkan distribusi Gaussian dari masing-masing kelas, dengan batas keputusan kuadratik.

27. Partial Least Squares Regression (PLS Regression)

Teknik regresi yang menggabungkan fitur dari analisis komponen utama (PCA) dan regresi linear untuk menemukan hubungan linear antara variabel input dan output.

28. Gaussian Process Regression

Model non-parametrik yang menggunakan proses Gaussian untuk memprediksi distribusi probabilistik dari nilai target berdasarkan data observasi.

29. Extreme Learning Machines (ELM)

Algoritma jaringan saraf tiruan yang melatih lapisan tersembunyi secara acak dan hanya menyesuaikan bobot lapisan output untuk kecepatan pelatihan yang tinggi.

30. Least Angle Regression (LARS)

Algoritma regresi yang efisien untuk seleksi fitur dalam data yang memiliki banyak fitur, mirip dengan Lasso namun lebih cepat dalam beberapa kondisi.

Komentar

Postingan populer dari blog ini

Data Preparation dan Data Visualization: Langkah Penting dalam Analisis Data

Supervise Learning (Klasifikasi) dan Contoh Algoritma Yang Ada Didalamnya

Pre-prosesesing Data Cleaning, Data Collection, Data Transform, Data Reduction