Postingan

Pre-prosesesing Data Cleaning, Data Collection, Data Transform, Data Reduction

Gambar
Data preprocessing adalah langkah awal yang krusial dalam proyek machine learning dan data science. Tahap ini bertujuan untuk mempersiapkan data mentah agar siap digunakan dalam proses analisis dan pembangunan model. Artikel ini akan membahas lima aspek utama dalam data preprocessing: Data Collection, Data Cleaning, Data Transformation, Data Reduction, dan Preprocessing secara keseluruhan. 1. Data Collection Data Collection adalah proses pengumpulan data dari berbagai sumber. Data ini bisa berasal dari database, sensor, web scraping, API, dan lain-lain. Kualitas data yang dikumpulkan akan sangat menentukan hasil akhir dari proyek. Kali ini saya mengambil data Salaries.csv yang bisa di unduh dari website kaggle. 2. Data Cleaning Data Cleaning adalah proses pembersihan data untuk mengatasi masalah seperti data yang hilang, duplikasi, dan inkonsistensi. Tujuan utamanya adalah untuk memastikan data yang digunakan akurat dan dapat diandalkan. Salah satu aspek utama dalam data cleaning...

Data Cleaning, Data Transformation, Data Reduction

Gambar
Anggota kelompok Data Mining 1. Dina Hartini 21416255201199 2. Dinar Rikma Bara 21416255201078 3. Muhamad Ikbal Ramdani 21416255201035 Hasil Diskusi Hasil diskusi kelompok kami dalam tiga tahapan penting dalam mempersiapkan data agar siap untuk dianalisis: Data Cleaning, Data Transformation, dan Data Reduction. Ketiga tahapan ini seperti membersihkan, merapikan, dan meringkas data agar lebih mudah dipahami dan memberikan hasil analisis yang akurat. Mari kita mulai perjalanan kita untuk memahami lebih dalam tentang bagaimana ketiga tahapan ini dapat mengubah data mentah menjadi informasi berharga. Kali ini saya akan menggunakan data frame ms_lulusan. Pertama tama kita panggil terlebih dahulu df_mslulusan dan kita tampilkan sebagai berikut: 1. Data Cleaning Data cleaning adalah proses penting dalam memastikan kualitas data. Tujuannya adalah untuk mengidentifikasi dan memperbaiki kesalahan seperti nilai yang hilang, duplikat data, kesalahan entri, dan nilai ekstrem yang tidak waj...

Supervise Learning (Klasifikasi) dan Contoh Algoritma Yang Ada Didalamnya

          Supervised learning adalah metode dalam machine learning di mana model belajar dari data yang sudah memiliki label atau kategori. Dalam supervised learning, terdapat dua jenis utama yaitu klasifikasi, di mana model akan memprediksi label atau kategori dari data baru, dan regresi, di mana model akan memprediksi nilai numerik. Kali ini, kita akan fokus membahas tentang klasifikasi.      Dalam metode Supervised Learning, klasifikasi adalah proses di mana model belajar untuk mengidentifikasi dan mengelompokkan data baru ke dalam kategori atau kelas yang telah ditentukan sebelumnya berdasarkan pola-pola yang ditemukan dalam data pelatihan berlabel. Contohnya, jika kita ingin membuat model untuk mengklasifikasikan email sebagai spam atau bukan spam, kita akan memberikan model dengan banyak contoh email yang sudah diberi label sebagai spam atau bukan spam. Model akan belajar dari contoh-contoh ini untuk mengenali karakteristik email spam d...

Supervise Learning (Prediksi) dan Contoh Algoritma Yang Ada Didalamnya

Supervised Learning untuk prediksi, juga dikenal sebagai regresi, bertujuan untuk memprediksi nilai numerik atau kontinu berdasarkan data masukan. Model regresi dilatih dengan data yang memiliki pasangan nilai input dan output, kemudian belajar untuk menemukan hubungan antara keduanya. Proses ini melibatkan beberapa langkah penting, mulai dari pengumpulan dan pra-pemrosesan data, pemilihan algoritma yang tepat, hingga pelatihan dan evaluasi model. Data pra-pemrosesan memastikan bahwa data bersih dan dalam format yang sesuai untuk pelatihan model. Pembagian data menjadi set latih dan uji membantu dalam mengevaluasi kemampuan model untuk generalisasi. Pemilihan algoritma regresi yang sesuai dengan kompleksitas data sangat penting untuk mendapatkan model yang akurat dan efisien. Evaluasi model menggunakan metrik seperti MAE, MSE, dan R-squared memastikan bahwa model memiliki kinerja yang baik dan dapat memprediksi dengan akurasi yang memadai pada data baru. Ada berbagai macam algoritm...

Quiz Pertemuan 5 Data Mining

  Anda juga dapat mendownload laporan  Di sini . 

Data Preparation dan Data Visualization: Langkah Penting dalam Analisis Data

Gambar
Data Preparation dan Data Visualization Mengenal tentang Data Preparation Data preparation atau preprocessing data merujuk pada serangkaian proses yang meliputi pengumpulan, penggabungan, penyusunan, dan pengaturan data agar dapat digunakan dalam berbagai aplikasi seperti business intelligence (BI), analitik, dan visualisasi data. Langkah-langkah ini seringkali melibatkan pengambilan data dari berbagai sumber, baik itu sistem internal maupun eksternal. Dalam konteks yang lebih sederhana, data preparation merupakan teknik yang digunakan untuk mengubah data mentah menjadi format yang lebih berguna dan efisien. Hal ini penting karena data mentah seringkali tidak lengkap dan memiliki format yang tidak konsisten, terutama ketika berasal dari berbagai sumber yang berbeda. Fungsi utama dari data preparation adalah memastikan bahwa data yang akan diproses dan dianalisis sudah akurat dan konsisten. Tujuannya adalah agar hasil dari aplikasi BI dan analitik yang digunakan dapat diandalkan. Memper...

Metode Proses Data Mining yang Umum Digunakan

Apa itu Data Mining? Data mining adalah sebuah proses analisis yang digunakan untuk menggali informasi berharga dari suatu kumpulan data besar. Tujuannya adalah untuk menemukan pola-pola tersembunyi, hubungan, atau tren yang dapat memberikan wawasan yang berharga dan mendukung pengambilan keputusan. Data mining adalah sebuah proses pencarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Teknik data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Namun tidak semua pekerjaan pencarian informasi dapat dinyatakan sebagai data mining. Selain itu, data mining juga memainkan peran penting dalam mendukung perkembangan kecerdasan buatan dan analisis prediktif. Dengan menggali informasi dari data yang ada, metode data mining seperti CRISP-DM dan SEMMA menjadi landasan bagi pengembangan model prediktif yang dapat memprediksi perilaku masa depan, mengoptimalkan proses bisnis, dan mendukung ...