Selasa, Juni 07, 2011

SUATU MODEL KAIDAH PEMENGGALAN SUKU PERTAMA PADA KATA BAHASA INDONESIA: KASUS PADA HURUF AWAL B




ABSTRACT
Almost all words in Indonesian consist of syllables. Occasionally due to certain reasons the words have to be segmented or cut into pieces by putting hyphens between them. In Indonesian there are rules as to where in the word the hyphens should be placed. In order that the hyphenation could be done by computer program some rules even with their exceptions have to be introduced into the program. At this occasion we begin this hyphenation rules at the first syllables of the words starting with letter B.

Key words
Information Retrieval, Natural Language Processing, Pemenggalan kata

1.      Pendahuluan
Sejak komputer berhasil diciptakan orang, di kalangan pakar komputer timbul keinginan untuk menggunakannya sebagai alat penerjemah bahasa. Mereka menamakannya mesin penerjemah. Ternyata keinginan ini tidak mudah dilaksanakan karena bahasa tidak mengenal aturan yang ketat seperti halnya aturan pada matematika atau logika. Sekalipun demikian, dari keinginan demikian muncul bidang pengetahuan baru yang berkenaan dengan komputer dan bahasa. Di antaranya muncul bidang pengetahuan seperti linguistik komputasional dan bahkan inteligensi buatan. Di bidang tersebut pun muncul berbagai ilmu yang berkaitan dengan bahasa seperti Information Retrieval dan Natural Language Processing.
NLP adalah salah satu bidang ilmu dalam computer science dan linguistik yang berkonsentrasi pada interaksi antara mesin dan bahasa alami manusia [1]. Sedangkan IR adalah ilmu yang berkaitan dengan representasi, penyimpanan, pengelolaan, dan pengaksesan terhadap informasi [2]. Pada saat ini NLP sudah banyak digunakan sebagai teknik dalam IR. Di dalam taksonomi computer science pada gambar 1, IR berada di bawah NLP. Dan teknik yang terdapat di dalam NLP dapat digunakan untuk mengembangkan IR.

 





















Gambar 1. Diagram Taksonomi Computer Science

Mesin penerjemah adalah salah satu aplikasi dalam NLP yang terus diteliti agar dapat dihasilkan mesin penerjemah yang dapat menerjemahkan bahasa yang satu ke dalam bahasa yang lain. Pembangunan mesin penerjemah haruslah melalui beberapa tahap dan salah satu di antaranya adalah pengenalan kata untuk memperoleh makna dari sebuah kalimat. Di bidang IR dan  NLP dikenal pula kajian mengenai pemrosesan naskah (text processing). Salah satu kajian di bidang pemrosesan naksah adalah pengenalan kata oleh komputer melalui kaidah tertentu.
Di dalam NLP dikenal beberapa tingkatan pengenalan kata yaitu fonologi, morfologi, leksikal, sintaktik, semantik, discourse dan pragmatik [3]. Untuk dapat mencapai tingkat paling atas yaitu pragmatik diperlukan pengetahuan mengenai fonologi, morfologi, dan seterusnya. Permasalahan yang muncul dalam NLP adalah komputer harus dapat memodelkan morfologi dari kata untuk mengerti sebuah kalimat dan morfologi tersebut digunakan untuk membangun kalimat yang betul. Banyak penelitian telah dilakukan untuk memperoleh hasil pengenalan kata yang betul. Mereka dimulai dari pemotongan imbuhan untuk dapat memperoleh kata dasar sampai ke memberikan part-of-speech tagging untuk dapat mengenali jenis kata dan pengenalan subyek, predikat, dan obyek.
Stemmer adalah pemotongan imbuhan pada kata berimbuhan untuk mendapatkan kata dasar. Stemmer untuk bahasa Indonesia sudah banyak diteliti. Nazief melakukan penelitian pemotongan imbuhan berdasarkan kamus bahasa Indonesia [4]. Dalam hal ini kualitas stemmer selalu berdasarkan besarnya kamus yang digunakan. Selain itu kelemahan dari stemmer Nazief adalah panjangnya waktu yang diperlukan dalam proses pencarian kata di dalam kamus.
Fadillah F. Tala melakukan penelitian pemotongan imbuhan berdasarkan aturan morfologi pada bahasa Indonesia dan mengadaptasi stemmer Porter dalam bahasa Inggris [5]. Kesalahan yang umum terjadi pada algoritma stemmer untuk bahasa Indonesia adalah overstemming atau understemming. Kesalahan ini terjadi karena dalam algoritma stemmer, kata langsung dipenggal mulai dari akhir atau awal kata. Contoh overstemming adalah berbadan => bad seharusnya badan. Sedangkan contoh understemming adalah mengecek => ecek seharusnya cek.
 Part of Speech tagging (POS-Tagging) adalah proses menandai kata-kata pada teks (korpus) berkenaan dengan part-of-speech tertentu berdasarkan definisi maupun konteksnya [6]. Bentuk-bentuk sederhananya adalah identifikasi kata-kata sebagai kata benda (noun), kata kerja (verb), kata sifat (adjective), kata keterangan (adverb), dan lain-lain. Beberapa penelitian telah berhasil menemukan bagaimana cara memberikan tagging secara otomatis untuk bahasa Inggris.
Tagger Brill adalah salah satu POS-tagging untuk bahasa Inggris berdasarkan aturan lingustik dari suatu bahasa [7] seperti aturan leksikal penggunaan imbuhan. Tagger Brill banyak diadaptasi untuk bahasa lain seperti untuk bahasa Indonesia namun dalam hal ini masih muncul banyak kesalahan karena pengenalan kata imbuhan yang masih salah. Di dalam tagger Brill diperoleh aturan leksikal seperti  kan hassuf 3 VB yang berarti dalam kata terdapat akhiran –kan. Namun dalam penerapannya masih terdapat kekeliruan berupa tagger tidak dapat mengenal pemenggalan kata yang betul. Kata makan dan perkenalkan dianggap merupakan kata yang memiliki akhiran –kan.
Penelitian ini akan membahas pengenalan kata. Pengenalan kata demikian berguna pada olah kata (wordprocessing) di dalam komputer. Melalui kaidah tertentu, pengenalan kata ini dapat digunakan untuk pemeriksaan betul-tidaknya ejaan dan bahkan lebih jauh lagi sampai ke pemeriksaan betul-tidaknya tata bahasa. Diharapkan hasil penelitian ini dapat diteruskan dan digunakan untuk penelitian lebih lanjut seperti penelitian stemmer dengan pemenggalan kata sehingga tidak terjadi overstemming atau understemming. Pemenggalan kata dapat memberikan informasi tempat bagian kata tersebut dipotong.
2.      Pemenggalan Suku Kata
Kata di dalam bahasa Indonesia terdiri atas suku kata, baik pada kata dasar maupun pada kata berimbuhan. Ada kata yang teridri atas satu suku kata, atas dua suku kata, dan ada pula kata yang terdiri atas tiga atau lebih suku kata. Menurut ketentuan bahasa, pemenggalan kata bahasa Indonesia hanya boleh dilakukan pada suku kata. Kata bendahara, misalnya, hanya boleh dipenggal menurut suku kata menjadi ben-da-ha-ra.
Pemenggalan kata ke dalam suku kata dilakukan dengan memberikan tanda suku -. Dengan sedikit pengecualian, misalnya, do-a, hanya kata dengan empat atau lebih huruf yang menggunakan tanda suku pada pemenggalan suku kata. Agar pemenggalan suku kata seperti ini dapat dilakukan oleh komputer, kita memerlukan kaidah-kaidah tentang pemenggalan suku kata. Diperkirakan ada banyak model kaidah yang dapat ditemukan orang untuk pemenggalan suku kata ini.
Di sini kita berbicara tentang salah satu model kaidah pemenggalan suku kata. Kaidah inipun masih dibatasi pada pemenggalan suku pertama pada kata. Pemenggalan suku pertama pada kata ini ditandai dengan tanda suku -. Sebagai contoh, pemenggalan suku pertama pada kata bendahara adalah ben-dahara. Dengan kaidah demikian, komputer diharapkan dapat dengan tanpa keliru memenggal suku pertama pada kata dengan memberikan tanda suku – di belakang suku kata itu.
2.1.         Pemenggalan Suku Pertama pada Kata
Di sini kita menggunakan kata yang berawal dengan huruf b sebagai prototipe dalam pencarian kaidah untuk pemenggalan suku pertama pada kata itu. Pemenggalan suku pertama ini berlaku untuk kata yang terdiri atas empat atau lebih huruf. Diharapkan melalui kaidah pada kata berawal dengan huruf b, secara analogi, kita dapat mencari kaidah serupa untuk kata-kata berawal dengan huruf lainnya.
Kita memerlukan beberapa ketentuan untuk mencari kaidah pemenggalan suku pertama ini. Kita membagi huruf ke dalam dua kategori berupa kategori konsonan yang diberi notasi [k] serta kategori vokal yang diberi notasi [v]. Kombinasi konsonan dan vokal atau vokal dan konsonan diberi notasi [kv] atau [vk]. Selanjutnya kombinasi huruf kh, ng, ny, dan sy yang terdiri atas dua huruf tetapi memiliki satu bunyi, di sini, dianggap sebagai satu konsonan.
Sebelum mencari kaidah yang memadai untuk pemenggalan suku pertama pada kata yang berawal dengan huruf b, kita coba melihat kombinasi empat huruf pertama dari berbagai kata. Kombinasi empat huruf pertama demikian tampak pada Tabel 1.

Tabel 1. Kombinasi empat huruf pertama kata berawal huruf b

ba[kv]
be[kv]           
bi[kv]       
bo[kv]         
bu[kv]
ba[vk]             
bel[k]            
bi[vk] 
bo[vk]        
bu[vk]
bad[k]
bel[v]            
bim[k]      
bok[k]
buk[k]
bah[k]
ben[k]
bin[k]       
bol[k]         
bum[k]
bam[k]
beng[k]         
bing[k]
bon[k]
bun[k]
ban[k]
ber[k]            
bis[k]       
bong[k]       
bung[k]
bang[k]           
ber[v]            

bor[k]
bur[k]
     
Sebagian di antara kombinasi empat huruf pertama di dalam Tabel 1 dapat diringkas menjadi kombinasi ba[kk], be[kk], bi[kk], bo[kk], dan bu[kk]. Di antara semua kombinasi empat huruf ini, terdapat bel[v] dan ber[v] yang perlu diperlakukan secara tersendiri. Mereka mengenal dua macam pemenggalan, misalnya, belajar yang menjadi bel-ajar dengan tanda suku di belakang huruf l dan belakang yang menjadi be-lakang dengan tanda suku di depan huruf l. Hal serupa terjadi pula pada ber[v].

2.2.         Kaidah Pemenggalan Suku Pertama
Kita mulai dengan kaidah umum untuk hal-hal yang sudah disebut di atas. Kaidah umum pada tabel 2 berkaitan dengan konsonan dan vokal serta ketentuan empat huruf pertama.
                 
Tabel 2. Kaidah umum pemenggalan kata berwalan b

Kaidah Umum 1
Konsonan diberi notasi [k] dan vokal diberi notasi [v] di dalam tanda kurung siku. Huruf kembar kh, ng, ny, dan sy dianggap sebagai satu konsonan.
Kaidah Umum 2
Pembacaan dilakukan terhadap empat huruf pertama berurutan pada kata yang akan dipenggal.
Kaidah Umum 3
Jika kata hanya terdiri dari 3 huruf atau kurang, maka tidak dilakukan pemenggalan

Kaidah selanjutnya khusus berkaitan dengan kata yang berawal dengan huruf b dengan memperhatikan kombinasi empat huruf pertama seperti tercantum di dalam Tabel 1. Untuk sementara kaidah pemenggalan suku pertama ini dibahas secara terpisah untuk kombinasi huruf ba, be, bi, bo, dan bu dengan membuat kaidah sementara seperti pada tabel 3.

Tabel 3. Kaidah sementara pemenggalan kata berawalan b

Kaidah sementara  1
Pada kelompok huruf ba[kv] dan ba[vk]  tanda suku diletakkan pada ba-[kv] dan ba-[vk]

Melalui kaidah ini, kita menemukan pemenggalan suku pertama seperti ba-gi, ba-ginda, ba-dan, ba-tang, ba-gaimana, ba-ik, ba-it, ba-ur, ba-ut, dan semacam itu.
Kaidah sementara 2
Pada kelompok huruf ba[kk], tanda suku diletakkan pada ba[k-k]. Jika kata itu hanya terdiri atas empat huruf maka tidak ada pemenggalan, misalnya, kata bank.

Melalui kaidah ini, kita menemukan pemenggalan suku pertama seperti bak-ti, ban-ting, bang-sal, ban-dar, ban-tuan, bad-minton, dan semacam itu.
Kaidah sementara 3
Pada kelompok huruf be[kv] kecuali untuk k = l dan k = r, tanda suku diletakkan pada be-[kv].

Melalui kaidah ini, kita menemukan pemenggalan suku pertama seperti be-berapa, be-canda, be-debah, be-kal, be-nang, be-tung, dan semacam itu.
Kaidah sementara 4
Pada kelompok huruf be[kv] untuk k = l dan k = r, pada daftar kata tertentu, tanda suku diletakkan pada be[k-v] dan pada kata lainnya, letak tanda suku mengikuti kaidah sementara 3.

Daftar kata perlu disusun tersendiri. Melalui kaidah ini, kita menemukan pemenggalan suku pertama seperti bel-ajar, ber-alamat, ber-alasan, ber-anggapan, ber-urut, ber-ulang, dan semacam itu.
Kaidah sementara  5
Pada kelompok huruf be[kk], tanda suku diletakkan pada be[k-k]. Jika kata itu hanya terdiri atas empat huruf maka tidak ada pemenggalan, misalnya, kata belt.

Melalui kaidah ini, kita menemukan pemenggalan suku pertama seperti beng-kak, ber-karya, ben-dahara, ben-turan, bes-tari, dan semacam itu.
Kaidah sementara  6
Pada kelompok huruf bi[kv] dan bi[vk] kecuali untuk bio[k], tanda suku  diletakkan pada bi-[kv] dan bi-[vk]. Untuk bio[k], tanda suku
diletakkan pada bio-[k]

Melalui kaidah ini, kita menemukan pemenggalan suku pertama seperti bi-dang, bi-lang, bi-sing, bi-ang, bi-asa, bi-awak bi-us, bio-logi, bio-fisika, dan semacam itu.
Kaidah sementara  7
Pada kelompok huruf bi[kk], tanda suku diletakkan pada bi[k-k].
Jika kata itu hanya terdiri atas empat huruf maka tidak ada pemenggalan.

Melalui kaidah ini, kita menemukan pemenggalan suku pertama seperti bim-bang, bim-bingan, bin-tang, bin-cang, bis-tik, dan semacam itu.
Kaidah sementara  8
Pada kelompok huruf bo[kv] dan bo[vk], tanda suku diletakkan pada bo-[kv] dan bo[v-k].

Melalui kaidah ini, kita menemukan penggalan suku pertama seperti bo-kong, bo-la, bo-long, bo-tak, boi-kot, dan semacam itu.
Kaidah sementara  9
Pada kelompok huruf bo[kk], tanda suku diletakkan pada bo[k-k]. Jika kata itu hanya terdiri atas empat huruf maka tidak ada pemenggalan, misalnya, kata bolt.

Melalui kaidah ini, kita menemukan penggalan suku pertama seperti bong-kok, bong-kar, bor-gol, bom-bardir, dan semacam itu.
Kaidah sementara 10
Pada kelompok huruf bu[kv] dan bu[vk], tanda suku diletakkan pada bu-[kv] dan bu-[vk].

Melalui kaidah ini, kita menemukan penggalan suku pertama seperti bu-kan, bu-daya, bu-lan, bu-nga, bu-sung, bu-al, bu-at, bu-aya, dan semacam itu.
Kaidah sementara 11
Pada kelompok huruf bu[kk], tanda suku diletakkan pada bu[k-k]. Jika kata itu hanya terdiri atas empat huruf maka tidak ada pemenggalan, misalnya, kata bulk.

Melalui kaidah ini, kita menemukan penggalan suku pertama seperti bum-bu, bung-kam, bung-kus, bun-tut, bur-sa, dan semacam itu.
Kaidah sementara 12
Pada kelompok kata dimulai dengan bl, br, dan by pembacaan dilakukan sebanyak lima huruf pertama berupa bl[vkv] dan br[vkv] yang dipenggal menjadi bl[v-kv] dan br[v-kv] serta
bl[vkk] dan r[vkk] yang dipenggal menjadi bl[vk-k] dan br[vk-k]

Melalui kaidah ini, kita menemukan penggalan suku pertama seperti blo-ger, bra-ta, blang-ko, bran-dal, byar-pet.


Ringkasan Kaidah Pemenggalan Suku Pertama

Dua belas kaidah di atas masih dapat diringkas karena terdapat kesamaan di antara beberapa kaidah. Ringkasan kaidah demikian dapat dilihat pada tabel 4.

Tabel 4. Kaidah pemenggalan kata berwalan b

Kaidah 1
Pada kelompok huruf  b[vkv] kecuali untuk bel[v] dan ber[v], tanda suku diletakkan pada b[v-kv]. Pada bel[v] dan ber[v], untuk daftar kata pengecualian, tanda suku diletakkan pada bel-[v] dan ber-[v].
Kaidah 2
Pada kelompok huruf  b[vvk], kecuali untuk bio[k], tanda suku diletakkan pada b[v-vk]. Pada bio[k], tanda suku diletakkan pada bio-[k].
Kaidah 3
Pada kelompok huruf  b[vkk], tanda suku diletakkan pada  b[vk-k]. Jika kata itu hanya terdiri atas empat huruf maka tidak ada pemenggalan.
Kaidah 4
Jika kelompok huruf diawali oleh b[k] maka pembacaan dilakukan sebanyak lima huruf pertama berupa b[kvkv] yang dipenggal menjadi b[kv-kv] dan b[kvkk] yang dipenggal menjadi b[kvk-k]

Khusus untuk kelompok huruf bel[v] dan ber[v], diperlukan suatu daftar kata tersendiri untuk memisahkan dua kemungkinan letak tanda suku. Namun pembedaan ini masih mungkin ditemukan melalui kaidah pada pemenggalan suku kedua. Sementara belum ada kaidah suku kedua yang dapat membedakannya, kita menggunakan daftar kata khusus untuk itu.
3.      Percobaan
Percobaan dilakukan dengan mengumpulkan kata berawalan b dari artikel berita yang diperoleh dari internet. Percobaan pertama dilakukan terhadap koleksi berita Suara Pembaruan dan percobaan kedua dilakukan terhadap koleksi berita Kompas. Kata yang digunakan adalah kata berawalan b yang bukan merupakan nama orang, singkatan, atau nama lokasi. Seluruh kata berawalan b dikumpulkan dan diurutkan berdasarkan abjad.
4.      Hasil Percobaan
Koleksi pertama adalah koleksi dari Suara Pembaruan bulan Februari–Maret 2005. Kata berawalan b yang diperoleh dari koleksi pertama adalah sebanyak 463 kata. Sedangkan koleksi kedua adalah koleksi dari Kompas 2001-2002. Kata berawalan b yang diperoleh dari koleksi kedua adalah sebanyak 4600 kata. Setelah diteliti maka kata b yang digunakan hanya 2096 sedangkan sisanya adalah kata yang berupa singkatan seperti bppt, bapenas, nama orang, nama lokasi, dan istilah asing. Hasil percobaan ini menggunakan 195 daftar kata tertentu sebagai pengecualian untuk kaidah 1.
Hasil percobaan ini dapat dilihat pada tabel 5.

Tabel 5  Perbandingan algoritma A dan algoritma B

Koleksi
Jumlah
Benar
Salah
%
Koleksi 1
463 kata
463 kata
0
100
Koleksi 2
2096 kata
2088 kata
8 kata
99.61


Beberapa kata yang salah dipenggal adalah kata-kata seperti:
bioskop => bio-skop seharusnya bios-kop
baunya => ba-unya seharusnya bau-nya

5.      Kesimpulan
Demikianlah salah satu model untuk kaidah pemenggalan suku pertama pada kata di dalam bahasa Indonesia. Di sini kaidah demikian masih dilakukan pada kata yang berawal dengan huruf b sebagai prototipe. Kaidah ini belum diuji secara tuntas dengan berbagai kata yang ada di dalam bahasa Indonesia. Masih diperlukan pengujian selanjutnya untuk menentukan apakah diperlukan kaidah tambahan ataukah model kaidah ini terlalu rumit untuk keperluan praktis.
Melalui kaidah yang serupa dengan kaidah ini, kata yang berawal dengan huruf bukan b dapat dipenggal melalui peletakan tanda suku. Dalam hal khusus, peletakan tanda suku itu dapat dilengkapi dengan  kaidah tambahan.


REFERENSI

[1]     Wikipedia, Natural Language Processing, http://en.wikipedia.org/wiki/Natural_language_processing, 17 February 2010
[2]     Baeza-Yates, R. and B. Ribiero-Neto, Modern Information Retrieval. Addison-Wesley, New York
[3]     Liddy, E. D. Natural Language Processing. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc.
[4]     B. Nazief and M. Adriani. Confix Stripping: Approach to Stemming Algorithm for Bahasa Indonesia. Technical report, Faculty of Computer Science, University of Indonesia, Depok, 1996.
[5]     Tala. Fadillah Z., A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Tesis. Master of Logic Project Institute for Logic, Language and Computation Universiteit van Amsterdam the Netherlands.
[6]     Wikipedia, Part-of-speech tagger, http://en.wikipedia.
org/wiki/Part-of-speech_tagger.html.
[7]     Eric Brill, A Simple Rule-Based Part of Speech Tagger, http://www.aclweb.org/anthology/H/H92/H92-1022.pdf, 20 February 2010.
[8]     Pusat Bahasa. Pedoman Umum Ejaan Bahasa Indonesia yang Disempurnakan. Jakarta: Balai Pustaka, 2005.
[9]     Pusat Bahasa. Kamus Besar Bahasa Indonesia, edisi keempat. Jakarta: Penerbit Gramedia Pustaska Utama, 2008.



Dali Santun Naga, adalah guru besar emeritus di Fakultas Teknologi Informasi, Universitas Tarumanagara, yang memiliki minat yang besar di bidang bahasa Indonesia.

Viny Christanti Mawardi, memperoleh gelar M.Kom dari Universitas Indonesia pada tahun 2008 dengan research interest Information Retrieval, staf pengajar program studi Teknik Informatika, Fakultas Teknologi Informasi, Universitas Tarumanagara.

Freddy Kurniawan, mahasiswa Teknik Informatika dari Universitas Tarumanagara angkatan 2007.








Twitter Delicious Facebook Digg Stumbleupon Favorites More

 
Design by Free WordPress Themes | Bloggerized by Lasantha - Premium Blogger Themes | Design Blog, Make Online Money