Dataset
Halo Ryan
SemEval 2016 Dataset Task 6 For Sentiment Analysis
Tim Halo Ryan, 04 Dec 2024
Sentiment Analysis adalah cabang dari analisis teks yang berfokus pada identifikasi dan ekstraksi emosi atau opini yang terkandung dalam teks. Tujuannya adalah untuk menentukan apakah sentimen atau opini yang diungkapkan dalam teks bersifat positif, negatif, atau netral. Sentiment analysis juga sering disebut sebagai opinion mining.
Dataset ini berisi dataset yang disadur dari SamEval dataset 2016 task 6 untuk keperluan kemudahan dalam pembelajaran. Berkas tersebut berisi anotasi sentimen mentah untuk tweet yang digunakan dalam SemEval-2016 Task 6 'Detecting Stance in Tweets'. Anotasi sentimen tersebut bukan bagian dari tugas bersama SemEval-2016, tetapi tersedia untuk penelitian di masa mendatang.
Kolom | Tipe Data | Keterangan |
Worker ID | Text | ID untuk pekerja kerumunan; untuk menjaga privasi, kami mengganti ID pekerja CrowdFlower dengan ID berurutan, tetapi tetap menggunakan ID yang sama untuk semua anotasi yang dilakukan oleh pekerja tertentu |
Instance ID | Text | ID untuk tweet yang dianotasi; ID tersebut sama dengan yang digunakan dalam kumpulan data pelatihan dan pengujian SemEval-2016 Task 6 |
Tweet | Text | Text Tweet |
Sentiment | Text / Categorical | adalah jawaban pekerja untuk pertanyaan berikut: 'Bahasa apa yang digunakan pembicara?' Jawaban yang mungkin adalah:
|
Mohammad, S., Sobhani, P., Kiritchenko, S. (2017). Stance and Sentiment in Tweets. ACM Transactions on Internet Technology, 17(3), 2017.
Kalian juga bisa melihat versi aslinya disini
Ada dua cara untuk menggunakan dataset ini, pertama kalian bisa download dan upload ulang datasetnya kedalam proyek kalian, dan kedua melakukan penarikan langsung (fork) dari CDN Halo Ryan di proyek google colab kalian seperti ini:
Download: Dataset SamEval 2016 Task6 Sentiment :
!wget --no-check-certificate https://cdn.haloryan.com/dataset/sam_eval_2016_task_6_sentiment.csv
import pandas as pd
df = pd.read_csv('sam_eval_2016_task_6_sentiment.csv')
df