skip to main content

Penerapan seleksi fitur dan rekayasa fitur pada metode decision tree untuk klasifikasi bahasa kasar dan ujaran kebencian pada twitter

1UIN Sultan Syarif Kasim, Riau, Indonesia

2Teknik Informatika, Fakultas Sains dan Teknologi, Indonesia

Received: 7 Sep 2020; Published: 31 Oct 2021.
Open Access Copyright (c) 2021 Jurnal Teknologi dan Sistem Komputer under http://creativecommons.org/licenses/by-sa/4.0.

Citation Format:
Abstract
Hate speech and abusive language are easily found in written communications in social media like twitter. They often generate a dispute between both parties, the victims and the first who write the tweet. However, it is almost difficult to distinguish a tweet contains hate speech and/or abusive language, for ones who take sides. This research is to build a system to classify the tweets into class of abusive and/or contain hate speech. If hate speech detected, then the hardness level of hatred will be measured. The dataset contains13,126 real tweets data. Word embeddings are used for featuring text.For classification, we use decision tree algorithm. Features engineering and parameters tuning show that performance of the classes of hate speech, abusive, and levelshas improved.The average accuracy from 69.95 to 71.28 for composition of training-testing 90:10, and from 68.74 to 70.56 for 80:20 respectively.This is a significant achievement in raising accuracy of three classes altogether.  

Ujaran kebencian dan bahasa kasar mudah ditemukan di dalam komunikasi tertulis di social media seperti twitter. Ia juga dapat memicu terjadinya persengketaan di antara korban dan pengujarnya. Bagaimanapun, akan sulit juga memeriksa apakah suatu tweet mengandung ujaran kebencian dan/atau bahasa kasar bila seseorang berpihak. Penelitian ini bertujuan untuk mengem-bangkan metode untuk mengklasifikasi tweet apakah mengandung ujaran kebencian dan kata-kata kasar. Apabila terdeteksi mengandung ujaran kebencian, maka akan diukur seberapa tinggi level ujaran kebenciannya. Dataset yang digunakan terdiri dari 13.126 cuitanasli twitter. Word Embedding digunakan sebagai fitur dari teks. Untuk klasifikasi, digunakan algoritma decision tree. Dengan beberapa rekayasa fitur dan pengaturan parameter, nilai klasifikasi dari ujaran kebencian, bahasa kasar dan levelnya dapat meningkat. Akurasi rata-rata dari ketiga kelas ujaran kebencian, kata-kata kasar dan level meningkat dari 69.95 menjadi 71.28 untuk komposisi data training-testing 90:10, dan dari 68.74 menjadi 70.56 untuk komposisi 80:20. Hasil ini adalah capaian yang signifikan dalam menaikkan akurasi dari ketiga kelas secara sekaligus.

Fulltext Email colleagues
Keywords: ujaran kebencian; bahasa kasar; decision tree; twitter; word embeddings;

Article Metrics:

Last update:

No citation recorded.

Last update: 2022-01-18 22:58:11

No citation recorded.