EDA Tools - Exploratory Data Analysis adalah suatu teknik pengolahan data untuk mencoba mencari kesimpulan umum atau petunjuk. Selanjutnya, kita dapat melakukan analisis lebih mendalam terhadap hasil analisis tersebut. EDA dilakukan pada awal pengerjaan analisis agar tidak terlalu memakan banyak waktu dan tenaga. Hal ini diperlukan karena banyaknya metode analisis yang dapat dilakukan, tetapi kita perlu memilih metode analisis yang sesuai dengan kebutuhan kita serta data yang tepat untuk dianalisis.
Contoh dari analisis EDA adalah:
1. Mencari nilai unik dari atribut data serta menghitung jumlah dari tiap atribut tersebut.
2. Menghitung pusat distribusi data, pusat distribusi dapat berupa rata-rata (Mean), nilai tengah (Median), atau modus (Mode).
3. Visualisasi sederhana seperti pie chart, histogram, dan bar chart.
4. Melihat distribusi dari data jumlah serta visualisasi.
Distribusi merupakan suatu kumpulan data yang menunjukkan karakter data, dimana kita dapat mengambil kesimpulan dari suatu kumpulan data tersebut yang berlaku pada semua data. Terdapat banyak jenis distribusi data, tetapi yang paling umum adalah distribusi normal, dimana distribusi ini memiliki bentuk yang simetris dari titik tengah data. Namun, pada praktiknya data seringkali tidak terdistribusi normal, terkadang dijumpai data yang bentuknya lebih ke kiri ataupun ke kanan, ini disebut skewed. Negatively skewed merupakan bentuk distribusi dengan data lebih condong ke kanan, sedangkan positively skewed merupakan bentuk distribusi dengan data lebih condong ke kiri. Adapun penggunaan titik tengah adalah seperti ini:
- Mean: Saat distribusi berbentuk normal.
- Median: Skewed.
- Mode: Data merupakan data kualitatif.
Data Analysis Tools
Dalam mengolah data, tentunya kita membutuhkan alat bantu yang dapat memudahkan kita dalam mengolah dan menganalisis data. Banyak alat yang dapat digunakan untuk pengolahan data yang paling umum dan banyak digunakan adalah Microsoft Excel dan Google Spreadsheet. Sayangnya, Excel dan Google Spreadsheet sampai saat ini memiliki batasan dalam jumlah data yang dapat dikelola, dimana Excel hanya dapat menangani kurang lebih 1 juta baris data sedangkan Google Sheets sampai 10 juta sel. Bahkan jika data sudah cukup banyak, performa kedua alat tersebut juga akan berkurang secara drastis. Jadi, kesimpulannya, Excel dan Sheets tidak dapat menampung data yang sangat banyak karena terbatas.
Saat ini, kebutuhan pengolahan data seringkali melebihi batas kemampuan Excel ataupun Google Sheets. Untuk itu, sekarang sangatlah dibutuhkan alat lain untuk mengolah data yang besar. Adapun contoh dari alat pengolah data yang besar adalah:
- Pengolah database: Google Cloud (Google BigQuery), Hadoop, Presto, MySQL, PostgreSQL.
- Alat Analisis: Python, R, Java.
- Alat Visualisasi: Tableau, Google Data Studio, Power BI.