Pre-prosesesing Data Cleaning, Data Collection, Data Transform, Data Reduction
Data preprocessing adalah langkah awal yang krusial dalam proyek machine learning dan data science. Tahap ini bertujuan untuk mempersiapkan data mentah agar siap digunakan dalam proses analisis dan pembangunan model. Artikel ini akan membahas lima aspek utama dalam data preprocessing: Data Collection, Data Cleaning, Data Transformation, Data Reduction, dan Preprocessing secara keseluruhan.
1. Data Collection
Data Collection adalah proses pengumpulan data dari berbagai sumber. Data ini bisa berasal dari database, sensor, web scraping, API, dan lain-lain. Kualitas data yang dikumpulkan akan sangat menentukan hasil akhir dari proyek. Kali ini saya mengambil data Salaries.csv yang bisa di unduh dari website kaggle.
2. Data Cleaning
Data Cleaning adalah proses pembersihan data untuk mengatasi masalah seperti data yang hilang, duplikasi, dan inkonsistensi. Tujuan utamanya adalah untuk memastikan data yang digunakan akurat dan dapat diandalkan. Salah satu aspek utama dalam data cleaning adalah menangani missing value atau nilai yang hilang. Missing value dapat terjadi karena berbagai alasan, seperti kesalahan saat pengumpulan data, entri data yang tidak lengkap, atau kerusakan dalam penyimpanan data.
Disini bisa kita lihat kolom 'Notes' memiliki missing values paling banyak, jadi akan saya akan menghapus kolom tersebut menggunakan cara dibawah ini :3. Data Transformation
3. Data Reduction









Komentar
Posting Komentar