Data Cleaning, Data Transformation, Data Reduction
Anggota kelompok Data Mining
1. Dina Hartini 21416255201199
2. Dinar Rikma Bara 21416255201078
3. Muhamad Ikbal Ramdani 21416255201035
2. Dinar Rikma Bara 21416255201078
3. Muhamad Ikbal Ramdani 21416255201035
Hasil Diskusi
Hasil diskusi kelompok kami dalam tiga tahapan penting dalam mempersiapkan data agar siap untuk dianalisis: Data Cleaning, Data Transformation, dan Data Reduction. Ketiga tahapan ini seperti membersihkan, merapikan, dan meringkas data agar lebih mudah dipahami dan memberikan hasil analisis yang akurat. Mari kita mulai perjalanan kita untuk memahami lebih dalam tentang bagaimana ketiga tahapan ini dapat mengubah data mentah menjadi informasi berharga. Kali ini saya akan menggunakan data frame ms_lulusan.
Pertama tama kita panggil terlebih dahulu df_mslulusan dan kita tampilkan sebagai berikut:
1. Data Cleaning
Data cleaning adalah proses penting dalam memastikan kualitas data. Tujuannya adalah untuk mengidentifikasi dan memperbaiki kesalahan seperti nilai yang hilang, duplikat data, kesalahan entri, dan nilai ekstrem yang tidak wajar. Dengan data yang bersih, hasil analisis akan lebih akurat dan dapat diandalkan. Kali ini kita akan memeriksa apakah ada nilai yang hilang menggunakan cara dibawah ini:
Dari gambar tersebut, dapat dilihat bahwa data frame ini tidak memiliki nilai yang hilang (missing values). Namun, jika ternyata data frame ini memiliki nilai yang hilang, salah satu pendekatan umum dalam menangani nilai yang kosong adalah dengan menghapus baris atau kolom yang mengandung nilai kosong menggunakan syntax drop() dibawag ini:
Hasilnya df_mslulusan memiliki 4542 entri (mahasiswa lulusan) dan 9 kolom. Dataframe ini tidak memiliki data duplikat dan tidak ada nilai yang hilang (null) pada setiap kolom.
2. Data transformation
Data transformation adalah proses mengubah data ke dalam format atau struktur yang sesuai dengan kebutuhan analisis. Beberapa hal yang sering dilakukan adalah mengubah tipe data (misalnya dari string ke datetime), membuat kolom baru berdasarkan kolom yang sudah ada, dan mengubah nilai-nilai pada kolom tertentu. Data transformation yang dilakukan disini meliputi mengubah tipe data kolom 'tanggal_lulus' dan 'tgl_masuk' menjadi datetime, membuat kolom baru 'lama_studi' dengan format "x tahun y bulan", dan mengubah nilai pada kolom 'jenis_kelamin' dari angka menjadi 'Laki-laki' dan 'Perempuan'.Berikut adalah contoh kode untuk melakukan data transformation:
3. Data reduction
Data reduction adalah langkah penting dalam persiapan data yang bertujuan untuk mengurangi volume data tanpa menghilangkan informasi krusial. Dengan menghapus kolom yang tidak relevan, mengambil subset data yang representatif, atau melakukan agregasi data, kita dapat menyederhanakan dataset dan mempercepat proses analisis tanpa mengorbankan kualitas hasil. Proses ini sangat bermanfaat ketika berhadapan dengan dataset yang sangat besar dan kompleks, karena dapat menghemat waktu dan sumber daya komputasi.
Pada gambar di atas, kita melihat contoh penerapan data reduction pada DataFrame df_mslulusan. Pertama, kolom 'status_masuk' dan 'status_pegawai' dihapus karena dianggap tidak relevan untuk analisis. Kemudian, subset data diambil dengan hanya menyertakan baris-baris di mana nilai kolom predikat adalah "Pujian". Terakhir, 10 baris pertama dari subset data ini ditampilkan untuk memberikan gambaran tentang hasil reduksi data. Dengan demikian, kita berhasil mereduksi data menjadi lebih ringkas dan fokus pada informasi yang relevan dengan analisis mengenai mahasiswa lulusan dengan predikat "Pujian".







Komentar
Posting Komentar