Dataset
Halo Ryan
Context Based Hate Speech Detection From TikTok
Tim Halo Ryan, 06 Dec 2024
Context-based hate speech detection adalah pendekatan dalam mendeteksi ujaran kebencian dengan mempertimbangkan konteks dari teks atau percakapan yang sedang dianalisis. Pendekatan ini lebih canggih dibandingkan deteksi tradisional yang hanya mengandalkan analisis teks individu secara terisolasi, karena ujaran kebencian seringkali bergantung pada konteks sosial, budaya, atau percakapan sebelumnya.
Dataset ini berisi kumpulan komentar dari beberapa konten pada media sosial TikTok yang sudah diklasifikasikan menurut kategori konteks hate-speech nya. Ada yang berupa Agama, Suku, Ras, Fisik dan Sex. Jumlah totalnya ada sekitaar 2000 komentar.
Kolom | Tipe Data | Keterangan |
komentar | String (Text) | Teks komentar dari netizen yang sudah di-scrapping |
agama | Bool | Bernilai '1' jika komentar mengandung unsur hatespeech dengan konteks agama |
ras | Bool | Bernilai '1' jika komentar mengandung unsur hatespeech dengan konteks ras |
suku | Bool | Bernilai '1' jika komentar mengandung unsur hatespeech dengan konteks suku |
fisik | Bool | Bernilai '1' jika komentar mengandung unsur hatespeech dengan konteks fisik |
sex | Bool | Bernilai '1' jika komentar mengandung unsur hatespeech dengan konteks sex |
Ada dua cara untuk menggunakan dataset ini, pertama kalian bisa download dan upload ulang datasetnya kedalam proyek kalian, dan kedua melakukan penarikan langsung (fork) dari CDN Halo Ryan di proyek google colab kalian seperti ini:
Download: Dataset Context Based Hate Speech Comment :
!wget --no-check-certificate https://cdn.haloryan.com/dataset/context_based_hate_speech.csv
import pandas as pd
df = pd.read_csv('context_based_hate_speech.csv')
df