Pre-prosesesing Data Cleaning, Data Collection, Data Transform, Data Reduction

Data preprocessing adalah langkah awal yang krusial dalam proyek machine learning dan data science. Tahap ini bertujuan untuk mempersiapkan data mentah agar siap digunakan dalam proses analisis dan pembangunan model. Artikel ini akan membahas lima aspek utama dalam data preprocessing: Data Collection, Data Cleaning, Data Transformation, Data Reduction, dan Preprocessing secara keseluruhan.

1. Data Collection

Data Collection adalah proses pengumpulan data dari berbagai sumber. Data ini bisa berasal dari database, sensor, web scraping, API, dan lain-lain. Kualitas data yang dikumpulkan akan sangat menentukan hasil akhir dari proyek. Kali ini saya mengambil data Salaries.csv yang bisa di unduh dari website kaggle.

2. Data Cleaning

Data Cleaning adalah proses pembersihan data untuk mengatasi masalah seperti data yang hilang, duplikasi, dan inkonsistensi. Tujuan utamanya adalah untuk memastikan data yang digunakan akurat dan dapat diandalkan. Salah satu aspek utama dalam data cleaning adalah menangani missing value atau nilai yang hilang. Missing value dapat terjadi karena berbagai alasan, seperti kesalahan saat pengumpulan data, entri data yang tidak lengkap, atau kerusakan dalam penyimpanan data.

Disini bisa kita lihat kolom 'Notes' memiliki missing values paling banyak, jadi akan saya akan menghapus kolom tersebut menggunakan cara dibawah ini :

3. Data Transformation



Data transformation adalah proses mengubah data ke dalam format atau struktur yang sesuai dengan kebutuhan analisis. Beberapa hal yang sering dilakukan adalah mengubah tipe data (misalnya dari string ke datetime), membuat kolom baru berdasarkan kolom yang sudah ada, dan mengubah nilai-nilai pada kolom tertentu. Data transformation yang dilakukan disini meliputi mengubah tipe data kolom 'tanggal_lulus' dan 'tgl_masuk' menjadi datetime, membuat kolom baru 'lama_studi' dengan format "x tahun y bulan", dan mengubah nilai pada kolom 'jenis_kelamin' dari angka menjadi 'Laki-laki' dan 'Perempuan' seperti ini caranya :
dan ini hasilnya, jenis kelamin sudah sesuai dengan yang ditentukan sebelumnya dan disini terdapat kolom baru yaitu kolom 'lama studi'.

3. Data Reduction

Data Reduction adalah proses mengurangi volume data sambil tetap mempertahankan integritas data yang penting. Ini bisa dilakukan melalui metode seperti pemilihan fitur (feature selection), ekstraksi fitur (feature extraction), dan sampling. Dengan menghapus kolom yang tidak relevan, mengambil subset data yang representatif, atau melakukan agregasi data, kita dapat menyederhanakan dataset dan mempercepat proses analisis tanpa mengorbankan kualitas hasil. Sebagai contoh bisa dilihat disini kolom 'IPS_SEMESTER_9' & 'IPS_SEMESTER TAMBAHAN' memiliki banyak nilai kosong jadi kita akan menghapusnya.


Cara menghapusnya seperti dibawah ini



Setelah dihapus, kolom 'IPS_SEMESTER_9' & 'IPS_SEMESTER TAMBAHAN' sudah tidak ada seperti di gambar berikut:














 

Komentar

Postingan populer dari blog ini

Data Preparation dan Data Visualization: Langkah Penting dalam Analisis Data

Supervise Learning (Klasifikasi) dan Contoh Algoritma Yang Ada Didalamnya