Beli Project AI +
Download Dataset

Dataset
Halo Ryan

Context Based Hate Speech Detection From TikTok

Made with by Halo Ryan

Dataset - Halo Ryan

Dataset - Context Based Hate Speech Detection From TikTok

Tim Halo Ryan, 06 Dec 2024

Context-based hate speech detection adalah pendekatan dalam mendeteksi ujaran kebencian dengan mempertimbangkan konteks dari teks atau percakapan yang sedang dianalisis. Pendekatan ini lebih canggih dibandingkan deteksi tradisional yang hanya mengandalkan analisis teks individu secara terisolasi, karena ujaran kebencian seringkali bergantung pada konteks sosial, budaya, atau percakapan sebelumnya.

Dataset ini berisi kumpulan komentar dari beberapa konten pada media sosial TikTok yang sudah diklasifikasikan menurut kategori konteks hate-speech nya. Ada yang berupa Agama, Suku, Ras, Fisik dan Sex. Jumlah totalnya ada sekitaar 2000 komentar.

Keterangan

KolomTipe DataKeterangan
komentarString (Text)Teks komentar dari netizen yang sudah di-scrapping
agamaBoolBernilai '1' jika komentar mengandung unsur hatespeech dengan konteks agama
rasBoolBernilai '1' jika komentar mengandung unsur hatespeech dengan konteks ras
sukuBoolBernilai '1' jika komentar mengandung unsur hatespeech dengan konteks suku
fisikBoolBernilai '1' jika komentar mengandung unsur hatespeech dengan konteks fisik
sexBoolBernilai '1' jika komentar mengandung unsur hatespeech dengan konteks sex

Penggunaan

Ada dua cara untuk menggunakan dataset ini, pertama kalian bisa download dan upload ulang datasetnya kedalam proyek kalian, dan kedua melakukan penarikan langsung (fork) dari CDN Halo Ryan di proyek google colab kalian seperti ini:

Download: Dataset Context Based Hate Speech Comment :

!wget --no-check-certificate https://cdn.haloryan.com/dataset/context_based_hate_speech.csv
import pandas as pd

df = pd.read_csv('context_based_hate_speech.csv')
df

Download Dataset