Postingan

Menampilkan postingan dari Juli, 2024

Pre-prosesesing Data Cleaning, Data Collection, Data Transform, Data Reduction

Gambar
Data preprocessing adalah langkah awal yang krusial dalam proyek machine learning dan data science. Tahap ini bertujuan untuk mempersiapkan data mentah agar siap digunakan dalam proses analisis dan pembangunan model. Artikel ini akan membahas lima aspek utama dalam data preprocessing: Data Collection, Data Cleaning, Data Transformation, Data Reduction, dan Preprocessing secara keseluruhan. 1. Data Collection Data Collection adalah proses pengumpulan data dari berbagai sumber. Data ini bisa berasal dari database, sensor, web scraping, API, dan lain-lain. Kualitas data yang dikumpulkan akan sangat menentukan hasil akhir dari proyek. Kali ini saya mengambil data Salaries.csv yang bisa di unduh dari website kaggle. 2. Data Cleaning Data Cleaning adalah proses pembersihan data untuk mengatasi masalah seperti data yang hilang, duplikasi, dan inkonsistensi. Tujuan utamanya adalah untuk memastikan data yang digunakan akurat dan dapat diandalkan. Salah satu aspek utama dalam data cleaning...

Data Cleaning, Data Transformation, Data Reduction

Gambar
Anggota kelompok Data Mining 1. Dina Hartini 21416255201199 2. Dinar Rikma Bara 21416255201078 3. Muhamad Ikbal Ramdani 21416255201035 Hasil Diskusi Hasil diskusi kelompok kami dalam tiga tahapan penting dalam mempersiapkan data agar siap untuk dianalisis: Data Cleaning, Data Transformation, dan Data Reduction. Ketiga tahapan ini seperti membersihkan, merapikan, dan meringkas data agar lebih mudah dipahami dan memberikan hasil analisis yang akurat. Mari kita mulai perjalanan kita untuk memahami lebih dalam tentang bagaimana ketiga tahapan ini dapat mengubah data mentah menjadi informasi berharga. Kali ini saya akan menggunakan data frame ms_lulusan. Pertama tama kita panggil terlebih dahulu df_mslulusan dan kita tampilkan sebagai berikut: 1. Data Cleaning Data cleaning adalah proses penting dalam memastikan kualitas data. Tujuannya adalah untuk mengidentifikasi dan memperbaiki kesalahan seperti nilai yang hilang, duplikat data, kesalahan entri, dan nilai ekstrem yang tidak waj...

Supervise Learning (Klasifikasi) dan Contoh Algoritma Yang Ada Didalamnya

          Supervised learning adalah metode dalam machine learning di mana model belajar dari data yang sudah memiliki label atau kategori. Dalam supervised learning, terdapat dua jenis utama yaitu klasifikasi, di mana model akan memprediksi label atau kategori dari data baru, dan regresi, di mana model akan memprediksi nilai numerik. Kali ini, kita akan fokus membahas tentang klasifikasi.      Dalam metode Supervised Learning, klasifikasi adalah proses di mana model belajar untuk mengidentifikasi dan mengelompokkan data baru ke dalam kategori atau kelas yang telah ditentukan sebelumnya berdasarkan pola-pola yang ditemukan dalam data pelatihan berlabel. Contohnya, jika kita ingin membuat model untuk mengklasifikasikan email sebagai spam atau bukan spam, kita akan memberikan model dengan banyak contoh email yang sudah diberi label sebagai spam atau bukan spam. Model akan belajar dari contoh-contoh ini untuk mengenali karakteristik email spam d...

Supervise Learning (Prediksi) dan Contoh Algoritma Yang Ada Didalamnya

Supervised Learning untuk prediksi, juga dikenal sebagai regresi, bertujuan untuk memprediksi nilai numerik atau kontinu berdasarkan data masukan. Model regresi dilatih dengan data yang memiliki pasangan nilai input dan output, kemudian belajar untuk menemukan hubungan antara keduanya. Proses ini melibatkan beberapa langkah penting, mulai dari pengumpulan dan pra-pemrosesan data, pemilihan algoritma yang tepat, hingga pelatihan dan evaluasi model. Data pra-pemrosesan memastikan bahwa data bersih dan dalam format yang sesuai untuk pelatihan model. Pembagian data menjadi set latih dan uji membantu dalam mengevaluasi kemampuan model untuk generalisasi. Pemilihan algoritma regresi yang sesuai dengan kompleksitas data sangat penting untuk mendapatkan model yang akurat dan efisien. Evaluasi model menggunakan metrik seperti MAE, MSE, dan R-squared memastikan bahwa model memiliki kinerja yang baik dan dapat memprediksi dengan akurasi yang memadai pada data baru. Ada berbagai macam algoritm...