Exploratory Data Analysis (EDA) adalah langkah awal dalam analisis data yang bertujuan untuk memahami struktur, pola, dan karakteristik data. Melalui EDA, kita dapat mendeteksi outlier, mengidentifikasi hubungan antar variabel, dan menemukan wawasan awal sebelum membangun model prediktif. Misalnya, kita memiliki dataset penjualan harian. Dengan EDA, kita bisa membuat histogram untuk melihat distribusi penjualan, menggunakan box plot untuk mendeteksi outlier, dan scatter plot untuk memahami hubungan antara harga produk dan jumlah penjualan.
Nah pada artikel ini kita akan mencoba mempelajari tentang apa itu EDA dan beberapa contoh dari EDA secara lengkap.
Exploratory Data Analysis (EDA) adalah proses analisis awal data untuk menemukan pola, anomali, hubungan, dan wawasan penting sebelum melakukan pemodelan lebih lanjut. EDA menggunakan teknik visualisasi seperti grafik dan statistik deskriptif untuk memahami distribusi, outlier, dan hubungan antar variabel. Proses ini membantu menentukan struktur data, mengidentifikasi variabel penting, dan memvalidasi asumsi awal. EDA berfungsi sebagai langkah kritis dalam membersihkan data dan memilih pendekatan analisis yang tepat.
EDA sangat penting dilakukan sebelum memuli modeling pada machine learning maupun data analysis. Tujuannya adalah seperti berikut:
Ada beberapa teknik yang umum dilakukan dalam EDA, khususnya untuk keperluan skripsi. Antara lain:
Berikut ini adalah contoh Exploratory Data Analysis yang dilakukan dalam project Sistem Rekomendasi Komposisi Tim Dota 2 Dengan Menggunakan Algoritma K-Nearest Neighbors. Kalian juga bisa membeli projectnya dengan harga promo beserta 10 project machine learning lainnya disini.
Kills | Deaths | Assists | KDA | GPM | XPM | Last Hits | Denies | LVL | |
count | 412.000000 | 412.000000 | 412.000000 | 412.000000 | 412.000000 | 412.000000 | 412.000000 | 412.000000 | 412.000000 |
mean | 7.417476 | 5.485437 | 10.347087 | 5.279369 | 504.427184 | 596.599515 | 223.587379 | 10.963592 | 20.861650 |
std | 4.452560 | 2.926892 | 5.697433 | 5.445503 | 111.078246 | 121.204949 | 95.514280 | 6.498447 | 3.847176 |
min | 0.000000 | 1.000000 | 0.000000 | 0.170000 | 284.000000 | 294.000000 | 59.000000 | 0.000000 | 9.000000 |
25% | 4.000000 | 3.000000 | 6.000000 | 1.710000 | 422.750000 | 506.750000 | 153.750000 | 6.000000 | 18.000000 |
50% | 7.000000 | 5.000000 | 10.000000 | 3.435000 | 490.500000 | 601.500000 | 205.000000 | 10.000000 | 21.000000 |
75% | 10.000000 | 7.000000 | 14.000000 | 6.500000 | 567.250000 | 678.250000 | 270.000000 | 15.000000 | 24.000000 |
max | 21.000000 | 15.000000 | 27.000000 | 30.000000 | 885.000000 | 912.000000 | 598.000000 | 34.000000 | 29.000000 |
Tools yang Sering Digunakan untuk EDA:
EDA membantu mencegah kesalahan dalam pemodelan lebih lanjut dengan menyediakan pemahaman mendalam tentang data. Ini juga membantu mengidentifikasi variabel penting yang mungkin perlu lebih diperhatikan saat membangun model.
EDA adalah langkah penting dalam setiap proyek data. Dengan menggunakan teknik statistik dan visualisasi, EDA memberi kita wawasan yang mendalam tentang pola, hubungan, dan masalah potensial dalam dataset. Tools seperti Python (pandas, matplotlib, seaborn), R (ggplot2), dan Tableau sangat berguna dalam melakukan EDA. Memahami EDA membantu kita mempersiapkan data untuk analisis lebih lanjut dan membuat keputusan yang lebih baik dalam proses pemodelan.