it’s just my step

Just another WordPress.com weblog

Bab 3 Analisis dan Perancangan Sistem

Posted by nonasahla pada Juli 18, 2009

3. Analisis dan Perancangan Sistem

1.1            Analisis Kebutuhan Sistem

Penentuan kata kunci untuk relevan feedback sangat mempengaruhi berapa bagus kata tersebut akan menghasilkan hasil yang sesuai dengan kebutuhan user. Metode relevan feedback dengan Algoritma Genetika merupakan metode query optimation yang bagus untuk meningkatkan efektivitas sistem. Hasil pemrosesan Algoritma Genetika akan menghasilkan kata kunci-kata kunci yang dianggap penting sesuai dengan bobot yang dimilikinya, dan kata kunci tersebut untuk kemudian digunakan untuk pencocokan dengan dokumen koleksi yang ada dalam database. Pemilihan fungsi fitness yang sesuai akan mempengaruhi bagaimana sistem mendapatkan query hasil yang optimal untuk digunakan dalam relevan feedback. Fungsi fitness yang digunakan dalam sistem adalah fungsi cosine, dice dan Overlap.

3.2   Gambaran Umum Sistem

Gambar 3‑1 : Gambaran umum sistem

Dalam prosesnya, system akan  mendapatkan masukan dari pengguna berupa query atau informasi kebutuhan pengguna, kemudian system akan mengeluarkan dokumen-dokumen yang dianggap relevan. Dokumen-dokumen keluaran yang digunakan dalam system ini adalah dokumen koleksi uji yang cukup terkenal dan sering digunakan para peneliti di bidang Information Retrieval System. Dokumen uji berasal dari Medline (Medical Online) yang dapat didownload dari situs http://www.filewatcher.com/b/ftp/ftp.cs.cornell.edu/pub/smart.0.0.html. Koleksi dokumen uji ini terdiri dari 30 query uji, 1. 140 dokumen dan 12. 368 daftar term hasil preprocessing.

Untuk membuat agar system lebih general digunakan dalam pencarian, maka query masukan bisa berasal dari query uji dan query bebas masukan user. Perbedaan antara query uji dan query bebas dari user adalah pada query uji bisa dihitung kualitas dari system dengan perhitungan nilai efektivitas hasil pencarian, tetapi untuk query bebas dari user, tidak bisa dihitung nilai efektifitasnya dikarenakan tidak adanya document relevan judgement. Document relevan judgement adalah dokumen yang dianggap relevan oleh pembuat koleksi dokumen uji oleh para ahli dari suatu query tertentu.

Gambaran mengenai dokumen uji ditunjukkan oleh tabel 3-1

tabel 3‑1 : Dokumen uji Medline

.I 1
.W
correlation between maternal and fetal plasma levels of glucose and free

fatty acids .

correlation coefficients have been determined between the levels of

glucose and ffa in maternal and fetal plasma collected at delivery .

significant correlations were obtained between the maternal and fetal

glucose levels and the maternal and fetal ffa levels . from the size of

the correlation coefficients and the slopes of regression lines it

appears that the fetal plasma glucose level at delivery is very strongly

dependent upon the maternal level whereas the fetal ffa level at

delivery is only slightly dependent upon the maternal level .

Contoh query yang digunakan untuk menguji efektivitas sistem ditunjukkan oleh tabel 3-2

Table 3‑2 : Query uji Medline

.I 1

.W

ventricular septal defect occurring in association with aortic

regurgitation.

.I 2

.W

the relationship of blood and cerebrospinal fluid oxygen concentrations

or partial pressures.  a method of interest is polarography.

.I 3

.W

electron microscopy of lung or bronchi.

Keterangan yang menjelaskan format dari dokumen dan query uji pada table 3-3 dibawah ini

Table  3‑3 : Keterangan format dokumen dan query uji

field keterangan
.I 1 Format yang menandakan item ke -1
.W Format  yang menandakan setelah itu adalah content
content Isi dari dokumen

3.2.1 Antar Muka Aplikasi

Antarmuka produk dengan perangkat keras adalah sebagai berikut :

  1. Sistem menerima input dari mouse dan keyboard
  1. Informasi yang dihasilkan akan ditampilkan ke layar monitor melalui VGA card.

3.2.2 Antar Muka Pengguna

Format output yang diterima pengguna dari system dapat diakses dengan web browser.

3.2.3 Antar Muka Sistem

3.2.3.1  Sisi Server

  • System Operasi Windows XP/2000
  • Basis data MySQL 5.0.33
  • Bahasa pemrograman PHP 5.2.1

3.2.3.2  Sisi Client

  • Sistem Operasi Windows/2000
  • Aplikasi dengan Web Browser

3.3     Preprocessing

Sebelum memasuki proses pencocokan antara query dan dokumen, seluruh dokumen uji  mengalami tahap preprocessing. Pada tahap ini, dokumen uji Medline akan mengalami  tahap-tahap yaitu word token, stop removal, stemming dan term weighting. Mekanisme jalannya indexing dapat dilihat pada gambar 3-2.

3.3.1 Word Token

Pada proses pembentukan kata kunci suatu dokumen, setiap content dalam dokumen akan dipecah menjadi token-token yang berbentuk kata tunggal. Dalam word Token, akan dihilangkan seluruh karakter bukan kata yang ada dalam content dokumen. Dari contoh dokumen koleksi yang ada di tabel 3-1, maka hasil word token sebagian dari keseluruhan ditunjukan pada tabel 3-4

Table 3‑4 : Word Token

Hasil word Token
array token:Array

(

[0] => Title

[1] => Document

[2] => 1Content

[3] => br

[4] => correlation

[5] => between

[6] => maternal

[7] => and

[8] => fetal

[9] => plasma

[10] => levels

[11] => of

[12] => glucose

[13] => and

[14] => free

[15] => br

)

Gambar 3‑2 : Preprocessing

3.3.2 Stop Removal

Kata atau term yang sering muncul dalam setiap dokumen maupun dokumen koleksi akan dianggap sebagai kata umum (stoplist). Kata umum tersebut jika tetap digunakan untuk proses selanjutnya, maka akan menurunkan bobot setiap term yang lebih penting dan efektivitas dari system pada saat pencocokan juga akan menurun. Untuk beberapa kasus, kata umum tidak harus dihilangkan, misalnya jika digunakan untuk system yang bertujuan digunakan pengguna awam. Tetapi untuk system ini, penulis memilih untuk menghilangkan kata umum karena dokumen koleksi yang digunakan mempunyai kecederungan query uji yang relative tidak menggunakan kata umum yang dimaksud. Daftar stoplist yang digunakan dalam system  ini berasal dari situs yang sama dengan dokumen koleksi yang sudah disebutkan diatas. Daftar stoplist yang berasal dari situs tersebut sejumlah 571 kata. Daftar stoplist akan ditampilkan pada lembar lampiran.

Hasil proses stop removal ditunjukan pada tabel 3-5 beserta perbedaannya sebelum dan sesudahnya.

Table  3‑5 :perbedaan term setelah dan sesudah stop removal

Array pre word removal Array pasca word removal
array token:Array

(

[0] => Title

[1] => Document

[2] => Content

[3] => br

[4] => correlation

[5] => between

[6] => maternal

[7] => and

[8] => fetal

[9] => plasma

[10] => levels

[11] => of

[12] => glucose

[13] => and

[14] => free

[15] => br

)

array Stoplist:Array
(
    [0] => Title
    [1] => Document
    [2] => Content
    [3] =>
    [4] => correlation
    [5] =>
    [6] => maternal
    [7] =>
    [8] => fetal
    [9] => plasma
    [10] => levels
    [11] =>
    [12] => glucose
    [13] =>
    [14] => free
    [15] =>

)

3.3.3 Stemming

Algoritma Stemming yang digunakan untuk mengubah kata bentukan menjadi kata dasar bahasa Inggris dalam system menggunakan Algoritma Porter. Pemilihan algoritma Porter mempunyai alasan algoritma porter cukup terkenal dan sering digunakan dalam pembuatan system yang serupa. Porter sudah banyak yang menggunakan dan merupakan algoritma yang opensource serta porter tidak menggunakan kamus dalam prosesnya, sehingga waktu yang dihemat bisa digunakan untuk proses yang lain. Hasil proses stemming ditunjukan pada tabel 3-6 beserta perbedaannya sebelum dan sesudahnya.

Table 3‑6 :perbedaan term setelah dan sesudah proses Stemming

Array pre stemming Array pasca stemming
array Stemming:Array
(    
    [19] => correlation
    [20] => coefficients
    [21] =>
    [22] =>
    [23] => determined
    [24] =>
    [25] =>
    [26] => levels
    [27] =>
    [28] =>
    [29] => glucose
    [30] =>
    [31] => ffa
    [32] =>
    [33] => maternal
    [34] =>
    [35] => fetal
    [36] => plasma
    [37] => collected

)

array Stemming:Array
(  
    [19] => correl
    [20] => coeffici
    [21] =>
    [22] =>
    [23] => determin
    [24] =>
    [25] =>
    [26] => level
    [27] =>
    [28] =>
    [29] => glucose
    [30] =>
    [31] => ffa
    [32] =>
    [33] => matern
    [34] =>
    [35] => fetal
    [36] => plasma
    [37] => collect

)

Gambar 3-3 adalah mekanisme algoritma Stemming Porter yang mempunyai 4 aturan dari segi penghilangan imbuhan dan menjadikan menjadi kata dasar.

Gambar 3‑3 : mekanisme algoritma Porter

Tinggalkan Balasan

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Ubah )

Twitter picture

You are commenting using your Twitter account. Log Out / Ubah )

Facebook photo

You are commenting using your Facebook account. Log Out / Ubah )

Connecting to %s

 
Ikuti

Get every new post delivered to your Inbox.