Data Analysis Process

Proses Data Analisis yang Benar: CRISP-DM Framework

CRISP-DM (Cross Industry Standard Process for Data Mining) adalah suatu kerangka kerja yang digunakan dalam industri data mining dan data analisis. Kerangka kerja ini terdiri dari beberapa komponen:


Business Understanding (Pemahaman Bisnis): Semua dimulai dengan pemahaman bisnis. Pertanyaan yang harus dijawab dalam fase ini mencakup hal-hal seperti apa yang dibutuhkan oleh bisnis dan masalah apa yang ingin dipecahkan oleh perusahaan.


Data Understanding (Pemahaman Data): Apa jenis data yang kita miliki dan butuhkan? Pemahaman data dan pemahaman bisnis saling terkait. Selama pemahaman bisnis belum selesai, kita akan terhenti dalam fase pemahaman bisnis.


Data Preparation (Persiapan Data): Bagaimana data dipersiapkan untuk analisis? Data tidak selalu siap untuk dianalisis; data tersebut perlu dibersihkan dan diformat agar cocok untuk digunakan dalam alat analisis yang akan digunakan.


Modeling (Pemodelan): Teknik model apa yang dapat diterapkan untuk menjawab masalah dalam pemahaman bisnis? Pemodelan melibatkan penggunaan teknik analisis data untuk membangun model yang dapat digunakan untuk membuat prediksi atau mendapatkan wawasan.


Evaluation (Evaluasi): Model mana yang paling cocok? Ketika kita memodelkan data, kita tidak hanya membuat satu model tunggal. Kita akan membuat beberapa kandidat model, dan dari sana kita akan mengevaluasi model yang paling cocok untuk menjawab masalah yang ingin kita pecahkan.


Deployment (Implementasi): Bagaimana para pemangku kepentingan dapat mengakses hasil analisis? Hasil analisis harus disampaikan dalam bentuk yang mudah dimengerti oleh para pemangku kepentingan.


Contoh Penggunaan CRISP-DM: Dealer Mobil Bekas


Pemahaman Bisnis: Sebagai pemilik dealer mobil bekas, kita ingin menentukan harga yang wajar untuk mobil bekas dengan spesifikasi tertentu. Faktor-faktor apa yang memengaruhi harga mobil bekas?


Pemahaman Data: Data diperoleh melalui survei dari marketplace dan penelusuran langsung kepada dealer lokal. Data mencakup informasi seperti harga, merek, tahun pembuatan, mesin, dan lain-lain. Setelah data terkumpul, kita melakukan analisis eksploratif untuk lebih memahami data.


Persiapan Data: Data dibersihkan dari inkonsistensi, kesalahan input, dan nilai yang hilang. Setelah itu, data disiapkan dalam format yang dapat diolah oleh komputer.


Pemodelan: Karena kita ingin memprediksi harga, kita menggunakan model regresi.


Evaluasi: Kita memilih model terbaik berdasarkan metrik seperti RMSE (Root Mean Square Error).


Implementasi: Model ini digunakan sebagai referensi oleh para ahli dalam menentukan harga. Keputusan akhir tetap memerlukan pertimbangan manusia, dan jika model menghasilkan nilai yang tidak masuk akal, ia dapat ditolak.


Dengan menggunakan CRISP-DM Framework, bisnis dapat mengikuti langkah-langkah yang terstruktur untuk memahami, menganalisis, dan memanfaatkan data dengan lebih efektif.