Beli Project AI +

Halo Ryan Blog

Apa Itu Exploratory Data Analysis (EDA)?

Tim Halo Ryan, 24 Sep 2024

Exploratory Data Analysis (EDA) adalah langkah awal dalam analisis data yang bertujuan untuk memahami struktur, pola, dan karakteristik data. Melalui EDA, kita dapat mendeteksi outlier, mengidentifikasi hubungan antar variabel, dan menemukan wawasan awal sebelum membangun model prediktif. Misalnya, kita memiliki dataset penjualan harian. Dengan EDA, kita bisa membuat histogram untuk melihat distribusi penjualan, menggunakan box plot untuk mendeteksi outlier, dan scatter plot untuk memahami hubungan antara harga produk dan jumlah penjualan.

Nah pada artikel ini kita akan mencoba mempelajari tentang apa itu EDA dan beberapa contoh dari EDA secara lengkap.

Apa Itu EDA?

Exploratory Data Analysis (EDA) adalah proses analisis awal data untuk menemukan pola, anomali, hubungan, dan wawasan penting sebelum melakukan pemodelan lebih lanjut. EDA menggunakan teknik visualisasi seperti grafik dan statistik deskriptif untuk memahami distribusi, outlier, dan hubungan antar variabel. Proses ini membantu menentukan struktur data, mengidentifikasi variabel penting, dan memvalidasi asumsi awal. EDA berfungsi sebagai langkah kritis dalam membersihkan data dan memilih pendekatan analisis yang tepat.

Tujuan EDA

EDA sangat penting dilakukan sebelum memuli modeling pada machine learning maupun data analysis. Tujuannya adalah seperti berikut:

  1. Memahami Data: Mengenali distribusi dan sifat variabel.
  2. Mendeteksi Outlier: Mengidentifikasi nilai yang tidak biasa.
  3. Menguji Hipotesis Awal: Menganalisis hubungan antar variabel.
  4. Menyiapkan Data untuk Pemodelan: Memilih variabel penting dan menangani data yang hilang.

Teknik-Teknik Umum Dalam EDA

Ada beberapa teknik yang umum dilakukan dalam EDA, khususnya untuk keperluan skripsi. Antara lain:

  1. Statistik Deskriptif: Seperti mean, median, dan standar deviasi untuk mendapatkan gambaran tentang variabel.
  2. Visualisasi Data: Menggunakan histogram, scatter plot, box plot, heatmap, dan pair plot untuk menggambarkan pola atau hubungan antar variabel.
  3. Tabulasi: Cross-tabulation atau pivot tables untuk melihat hubungan antara variabel kategori.

Contoh-Contoh EDA Dalam Machine Learning

Berikut ini adalah contoh Exploratory Data Analysis yang dilakukan dalam project Sistem Rekomendasi Komposisi Tim Dota 2 Dengan Menggunakan Algoritma K-Nearest Neighbors. Kalian juga bisa membeli projectnya dengan harga promo beserta 10 project machine learning lainnya disini.

  1. Deskripsi Statistik
    Kills Deaths Assists KDA GPM XPM Last Hits Denies LVL
    count 412.000000 412.000000 412.000000 412.000000 412.000000 412.000000 412.000000 412.000000 412.000000
    mean 7.417476 5.485437 10.347087 5.279369 504.427184 596.599515 223.587379 10.963592 20.861650
    std 4.452560 2.926892 5.697433 5.445503 111.078246 121.204949 95.514280 6.498447 3.847176
    min 0.000000 1.000000 0.000000 0.170000 284.000000 294.000000 59.000000 0.000000 9.000000
    25% 4.000000 3.000000 6.000000 1.710000 422.750000 506.750000 153.750000 6.000000 18.000000
    50% 7.000000 5.000000 10.000000 3.435000 490.500000 601.500000 205.000000 10.000000 21.000000
    75% 10.000000 7.000000 14.000000 6.500000 567.250000 678.250000 270.000000 15.000000 24.000000
    max 21.000000 15.000000 27.000000 30.000000 885.000000 912.000000 598.000000 34.000000 29.000000
  2. Visualisasi Data
  3. Decision Result
  4. Outlier Detection
    Dari project: Prediksi Cuaca Dengan Menggnakan Sistem Pakar (Decision Tree) disini
  5. Kernel Approximation
    Dari project: Prediksi Tingkat Kadaluarsa Beras Dengan SVM disini

Tools EDA

Tools yang Sering Digunakan untuk EDA:

  1. Python:
    • pandas untuk manipulasi data.
    • matplotlib dan seaborn untuk visualisasi.
  2. R:
    • ggplot2 untuk visualisasi.
    • dplyr untuk manipulasi data.
  3. Tableau: Alat visualisasi interaktif untuk eksplorasi data.
  4. Microsoft Excel: Untuk analisis sederhana dengan grafik bawaan.

Step-by-step EDA

  1. Deskriptif Statistik: Langkah pertama adalah menghitung statistik dasar seperti rata-rata (mean), median, mode, rentang (range), dan standar deviasi. Ini memberikan gambaran awal tentang data, terutama bagaimana data tersebar.
  2. Pemeriksaan Missing Data: Mengidentifikasi jika ada data yang hilang (missing values) dan memutuskan cara untuk mengatasinya, seperti menghapus baris atau melakukan imputasi (mengisi nilai yang hilang).
  3. Visualisasi Distribusi Data:
    • Histogram: Digunakan untuk melihat distribusi frekuensi suatu variabel. Apakah variabel mengikuti distribusi normal, miring ke kiri (left-skewed), atau miring ke kanan (right-skewed)?
    • Box Plot: Menunjukkan persebaran data dan outlier (nilai ekstrim) dalam dataset.
    • Scatter Plot: Digunakan untuk mengidentifikasi hubungan antara dua variabel numerik. Ini membantu kita memahami apakah ada korelasi (positif atau negatif) antara variabel-variabel tersebut.
  4. Korelasi Antar Variabel:
    • Dengan menggunakan matriks korelasi atau heatmap, kita dapat menilai seberapa kuat hubungan antara satu variabel dengan variabel lainnya. Korelasi positif berarti ketika satu variabel meningkat, variabel lain juga meningkat. Korelasi negatif berarti ketika satu variabel meningkat, variabel lain menurun.
  5. Identifikasi Pola Outlier:
    • Mendeteksi outlier penting karena outlier bisa menjadi indikasi kesalahan data atau hal penting yang perlu diselidiki lebih lanjut. Outlier sering terdeteksi melalui box plot atau scatter plot.

Mengapa EDA Penting?

EDA membantu mencegah kesalahan dalam pemodelan lebih lanjut dengan menyediakan pemahaman mendalam tentang data. Ini juga membantu mengidentifikasi variabel penting yang mungkin perlu lebih diperhatikan saat membangun model.

Kesimpulan

EDA adalah langkah penting dalam setiap proyek data. Dengan menggunakan teknik statistik dan visualisasi, EDA memberi kita wawasan yang mendalam tentang pola, hubungan, dan masalah potensial dalam dataset. Tools seperti Python (pandas, matplotlib, seaborn), R (ggplot2), dan Tableau sangat berguna dalam melakukan EDA. Memahami EDA membantu kita mempersiapkan data untuk analisis lebih lanjut dan membuat keputusan yang lebih baik dalam proses pemodelan.

Baca Artikel Lainnya +