Menghilangkan Stopword Bahasa Indonesia dengan File CSV di Python

Stopword adalah kata-kata umum yang tidak memiliki makna khusus dalam sebuah teks dan sering kali diabaikan dalam analisis teks. Contoh stopword dalam bahasa Indonesia antara lain “dan”, “atau”, “dari”, dan “kepada”. Penghilangan stopword sangat penting dalam analisis teks karena dapat mempercepat pemrosesan teks dan menghilangkan kebisingan yang tidak diperlukan.

Dalam artikel ini, kita akan membahas bagaimana cara menghilangkan stopword dalam bahasa Indonesia menggunakan file CSV di Python. File CSV yang akan kita gunakan berisi daftar stopword dalam bahasa Indonesia.

Langkah pertama adalah menginstal library Python yang dibutuhkan. Untuk melakukan hal ini, buka terminal atau command prompt dan jalankan perintah berikut:

pip install pandas

Setelah menginstal library pandas, kita dapat mulai membaca file CSV yang berisi daftar stopword. File CSV yang akan kita gunakan dapat diunduh dari sumber yang terpercaya atau dibuat sendiri. Berikut adalah contoh bagaimana membaca file CSV dengan pandas:

import pandas as pd

# membaca file CSV yang berisi daftar stopword
stopword = pd.read_csv("stopword.csv", header=None)

# menampilkan 10 baris pertama dari file CSV
print(stopword.head(10))

Dalam contoh di atas, kita menggunakan library pandas untuk membaca file CSV yang berisi daftar stopword. Kita juga menampilkan 10 baris pertama dari file CSV dengan menggunakan fungsi head().

Setelah membaca file CSV, kita dapat mulai menghilangkan stopword dalam teks. Berikut adalah contoh sederhana bagaimana menghilangkan stopword dalam sebuah teks:

import pandas as pd

# membaca file CSV yang berisi daftar stopword
stopword = pd.read_csv("stopword.csv", header=None)

# teks yang akan dihilangkan stopword-nya
teks = "Saya suka makan nasi goreng dan minum teh manis."

# menghilangkan stopword dari teks
teks_baru = " ".join([kata for kata in teks.split() if kata not in stopword[0].tolist()])

# menampilkan teks yang sudah dihilangkan stopword-nya
print(teks_baru)

Dalam contoh di atas, kita menggunakan teks “Saya suka makan nasi goreng dan minum teh manis.” sebagai contoh. File CSV yang berisi daftar stopword dibaca menggunakan library pandas. Stopword kemudian dihilangkan dari teks menggunakan fungsi join() dan loop for. Teks yang sudah dihilangkan stopword-nya kemudian ditampilkan.

Dengan menggunakan file CSV yang berisi daftar stopword dalam bahasa Indonesia, pengolahan data teks dapat dilakukan dengan lebih cepat dan efisien. Selain itu, penggunaan file CSV juga memudahkan pengguna dalam melakukan penambahan atau penghapusan stopword yang dibutuhkan. Oleh karena itu, dalam melakukan pengolahan data teks, pengguna sebaiknya menggunakan file CSV yang berisi daftar stopword.

Leave a Reply

Your email address will not be published. Required fields are marked *