it’s just my step

Just another WordPress.com weblog

Daftar Stoplist Bahasa Inggris Lengkap

Posted by nonasahla pada Agustus 27, 2009

nih daftar stoplist inggris paling lengkap yang gw punya… habis dari TA gw ni….
buka link in ya… kalo mau cepet register dulu di ziddu

buat ngambil stoplist.txt ini

Ditulis dalam Tugas Akhir | Tinggalkan sebuah Komentar »

2 pack indomie all at once as breakfast

Posted by nonasahla pada Juli 26, 2009

this morning, i made indomie selera pedas 2 pack in once making…

uhmmm.. maybe i start to life disorganize again..

noone will concern me again everybody..
maybe, i will take permision to my blog everything i will do…

someone wont i give information about me again. what a pity i am…

Ditulis dalam Uncategorized | Tinggalkan sebuah Komentar »

1. Pendahuluan

Posted by nonasahla pada Juli 18, 2009

Latar belakang masalah

Suksesnya penelitian mengenai penggunaaan Algoritma Genetika(GA) untuk menemukan suatu solusi dalam Information Retrieval(IR) mendorong para ahli mencoba hal baru lagi. Sebenarnya, GA bukan hal baru lagi dalam Information Retrieval, karena sebelumnya Gordon sudah menyarankan representasi posting diterapkan sebagai kromosom, dan menggunakan algoritma ini untuk memilih indexing yang  baik. Yang et al. menyarankan penggunaan GA dalam User Relevance Feedback untuk memilih bobot term yang dicari dalam query. Morgan dan Kilgour menyarankan pertengahan antara user dan IR sistem dalam pemilihan term yang dicari dari thesaurus dan kamusnya. Boughanem et al. , Horng dan Yeh dan Vrajitoru meneliti GA untuk IR dan mereka menyarankan sebuah rekombinasi baru dan operator mutasi. Vrajitoru juga meneliti efek dari ukuran populasi dalam kemampuan pembelajarannya dan menyimpulkan ukuran populasi sangat penting[1]. Dan untuk penelitian ini, penulis mengadopsi penggunaan GA untuk User Relevance Feedback tidak murni untuk menghasilkan keyword solusi yang akan digunakan dalam IR.

Information Retrieval adalah sistem yang digunakan untuk menyimpan suatu informasi yang mana dibutuhkan untuk diindex, dicari dan diambil berdasarkan query yang dibutuhkan user. Query dan dokumen akan dilakukan proses indexing dan kemudian dimatching(dicari kemiripannya). Query dan dokumen akan dimodelkan ke IR dengan pendekatan vector space model(vsm). Dalam vsm dokumen akan dipandang sebagai vector dalam ruang n dimensi disertai dengan bobotnya, dimana n adalah term berbeda yang merupakan konten dari dokumen koleksi. Query juga demikian, sehingga akan bisa diukur tingkat kemiripannya, dan  akan bisa diketahui rangking dari hasil pencarian berdasarkan perhitungan vsm.  Kebanyakan sistem IR menggunakan sebuah atau beberapa keyword untuk mengambil dokumen yang berhubungan. Keyword tersebut akan dicocokan ke dalam dokumen koleksi dan kemudian mengambil dokumen hasil pencocokan dan dilakukan perankingan.

GA adalah algoritma probabilitas yang mensimulasikan mekanisme seleksi alam dari kehidupan organisme dan biasanya digunakan menyelesaikan masalah yang mempunyai solusi yang mahal[1]. Sebuah keyword dalam IR direpresentasikan sebagai sebuah gen, dokumen sebagai individu dan kumpulan dokumen yang dianggap relevan direpresentasikan sebagai populasi awal dalam Algoritma Genetika. Fungsi fitness dalam Algortima Genetika digunakan sebagai fungsi evaluasi dalam pemilihan dokumen yang relevan terhadap keyword. Untuk meneliti pengaruh dari beberapa fungsi fitness terhadap hasil pencarian, maka penelitian terhadap metode Cosine, Dice, Overlap dilakukan dalam Tugas Akhir ini. Pemilihan model kromosom menggunakan representasi binary yang dikonversikan ke representasi real.

Hasil proses matching antara query dan dokumen akan didapatkan dokumen training. Dokumen training yang diambil sebanyak 15 dokumen, yang kemudian digunakan untuk  proses  GA. Hasil proses GA akan didapatkan kromosom terbaik yang terdiri dari keyword-keyword solusi untuk digunakan lagi dalam IR. Hasil matching kedua, kemudian dokumen tersebut di-retrieve. Untuk memberikan dokumen secara terurut kepada user, maka dokumen retrieval hasil pencarian tersebut diurutkan menurut tingkat kemiripannya, disebut juga sebagai rank document retrieval. Penggunaan fungsi fitness yang berbeda-beda pada Algoritma Genetika ditujukan untuk mempermudah user mencari dokumen yang relevan. Dengan adanya tingkat kemiripan dokumen yang berbeda-beda hasil implementasi dari ketiga fungsi fitness, maka user bisa memilih sesuai dengan kebutuhan. Pengujian dokumen retrieval menggunakan Recall. Precision, dan non-IAP (non Interpolated Average Precision). Pada Tugas Akhir ini, sistem yang dibangun oleh penulis diberi nama FreeGeneticSystem. FreeGeneticSystem berbasis web, dengan maksud kemudahan di kemudian hari jika menginginkan diimplementasikan sistem secara online.

Ditulis dalam Tugas Akhir | Tinggalkan sebuah Komentar »

Bab 3 Analisis dan Perancangan Sistem

Posted by nonasahla pada Juli 18, 2009

3. Analisis dan Perancangan Sistem

1.1            Analisis Kebutuhan Sistem

Penentuan kata kunci untuk relevan feedback sangat mempengaruhi berapa bagus kata tersebut akan menghasilkan hasil yang sesuai dengan kebutuhan user. Metode relevan feedback dengan Algoritma Genetika merupakan metode query optimation yang bagus untuk meningkatkan efektivitas sistem. Hasil pemrosesan Algoritma Genetika akan menghasilkan kata kunci-kata kunci yang dianggap penting sesuai dengan bobot yang dimilikinya, dan kata kunci tersebut untuk kemudian digunakan untuk pencocokan dengan dokumen koleksi yang ada dalam database. Pemilihan fungsi fitness yang sesuai akan mempengaruhi bagaimana sistem mendapatkan query hasil yang optimal untuk digunakan dalam relevan feedback. Fungsi fitness yang digunakan dalam sistem adalah fungsi cosine, dice dan Overlap.

3.2   Gambaran Umum Sistem

Gambar 3‑1 : Gambaran umum sistem

Dalam prosesnya, system akan  mendapatkan masukan dari pengguna berupa query atau informasi kebutuhan pengguna, kemudian system akan mengeluarkan dokumen-dokumen yang dianggap relevan. Dokumen-dokumen keluaran yang digunakan dalam system ini adalah dokumen koleksi uji yang cukup terkenal dan sering digunakan para peneliti di bidang Information Retrieval System. Dokumen uji berasal dari Medline (Medical Online) yang dapat didownload dari situs http://www.filewatcher.com/b/ftp/ftp.cs.cornell.edu/pub/smart.0.0.html. Koleksi dokumen uji ini terdiri dari 30 query uji, 1. 140 dokumen dan 12. 368 daftar term hasil preprocessing.

Untuk membuat agar system lebih general digunakan dalam pencarian, maka query masukan bisa berasal dari query uji dan query bebas masukan user. Perbedaan antara query uji dan query bebas dari user adalah pada query uji bisa dihitung kualitas dari system dengan perhitungan nilai efektivitas hasil pencarian, tetapi untuk query bebas dari user, tidak bisa dihitung nilai efektifitasnya dikarenakan tidak adanya document relevan judgement. Document relevan judgement adalah dokumen yang dianggap relevan oleh pembuat koleksi dokumen uji oleh para ahli dari suatu query tertentu.

Gambaran mengenai dokumen uji ditunjukkan oleh tabel 3-1

tabel 3‑1 : Dokumen uji Medline

.I 1
.W
correlation between maternal and fetal plasma levels of glucose and free

fatty acids .

correlation coefficients have been determined between the levels of

glucose and ffa in maternal and fetal plasma collected at delivery .

significant correlations were obtained between the maternal and fetal

glucose levels and the maternal and fetal ffa levels . from the size of

the correlation coefficients and the slopes of regression lines it

appears that the fetal plasma glucose level at delivery is very strongly

dependent upon the maternal level whereas the fetal ffa level at

delivery is only slightly dependent upon the maternal level .

Contoh query yang digunakan untuk menguji efektivitas sistem ditunjukkan oleh tabel 3-2

Table 3‑2 : Query uji Medline

.I 1

.W

ventricular septal defect occurring in association with aortic

regurgitation.

.I 2

.W

the relationship of blood and cerebrospinal fluid oxygen concentrations

or partial pressures.  a method of interest is polarography.

.I 3

.W

electron microscopy of lung or bronchi.

Keterangan yang menjelaskan format dari dokumen dan query uji pada table 3-3 dibawah ini

Table  3‑3 : Keterangan format dokumen dan query uji

field keterangan
.I 1 Format yang menandakan item ke -1
.W Format  yang menandakan setelah itu adalah content
content Isi dari dokumen

3.2.1 Antar Muka Aplikasi

Antarmuka produk dengan perangkat keras adalah sebagai berikut :

  1. Sistem menerima input dari mouse dan keyboard
  1. Informasi yang dihasilkan akan ditampilkan ke layar monitor melalui VGA card.

3.2.2 Antar Muka Pengguna

Format output yang diterima pengguna dari system dapat diakses dengan web browser.

3.2.3 Antar Muka Sistem

3.2.3.1  Sisi Server

  • System Operasi Windows XP/2000
  • Basis data MySQL 5.0.33
  • Bahasa pemrograman PHP 5.2.1

3.2.3.2  Sisi Client

  • Sistem Operasi Windows/2000
  • Aplikasi dengan Web Browser

3.3     Preprocessing

Sebelum memasuki proses pencocokan antara query dan dokumen, seluruh dokumen uji  mengalami tahap preprocessing. Pada tahap ini, dokumen uji Medline akan mengalami  tahap-tahap yaitu word token, stop removal, stemming dan term weighting. Mekanisme jalannya indexing dapat dilihat pada gambar 3-2.

3.3.1 Word Token

Pada proses pembentukan kata kunci suatu dokumen, setiap content dalam dokumen akan dipecah menjadi token-token yang berbentuk kata tunggal. Dalam word Token, akan dihilangkan seluruh karakter bukan kata yang ada dalam content dokumen. Dari contoh dokumen koleksi yang ada di tabel 3-1, maka hasil word token sebagian dari keseluruhan ditunjukan pada tabel 3-4

Table 3‑4 : Word Token

Hasil word Token
array token:Array

(

[0] => Title

[1] => Document

[2] => 1Content

[3] => br

[4] => correlation

[5] => between

[6] => maternal

[7] => and

[8] => fetal

[9] => plasma

[10] => levels

[11] => of

[12] => glucose

[13] => and

[14] => free

[15] => br

)

Gambar 3‑2 : Preprocessing

3.3.2 Stop Removal

Kata atau term yang sering muncul dalam setiap dokumen maupun dokumen koleksi akan dianggap sebagai kata umum (stoplist). Kata umum tersebut jika tetap digunakan untuk proses selanjutnya, maka akan menurunkan bobot setiap term yang lebih penting dan efektivitas dari system pada saat pencocokan juga akan menurun. Untuk beberapa kasus, kata umum tidak harus dihilangkan, misalnya jika digunakan untuk system yang bertujuan digunakan pengguna awam. Tetapi untuk system ini, penulis memilih untuk menghilangkan kata umum karena dokumen koleksi yang digunakan mempunyai kecederungan query uji yang relative tidak menggunakan kata umum yang dimaksud. Daftar stoplist yang digunakan dalam system  ini berasal dari situs yang sama dengan dokumen koleksi yang sudah disebutkan diatas. Daftar stoplist yang berasal dari situs tersebut sejumlah 571 kata. Daftar stoplist akan ditampilkan pada lembar lampiran.

Hasil proses stop removal ditunjukan pada tabel 3-5 beserta perbedaannya sebelum dan sesudahnya.

Table  3‑5 :perbedaan term setelah dan sesudah stop removal

Array pre word removal Array pasca word removal
array token:Array

(

[0] => Title

[1] => Document

[2] => Content

[3] => br

[4] => correlation

[5] => between

[6] => maternal

[7] => and

[8] => fetal

[9] => plasma

[10] => levels

[11] => of

[12] => glucose

[13] => and

[14] => free

[15] => br

)

array Stoplist:Array
(
    [0] => Title
    [1] => Document
    [2] => Content
    [3] =>
    [4] => correlation
    [5] =>
    [6] => maternal
    [7] =>
    [8] => fetal
    [9] => plasma
    [10] => levels
    [11] =>
    [12] => glucose
    [13] =>
    [14] => free
    [15] =>

)

3.3.3 Stemming

Algoritma Stemming yang digunakan untuk mengubah kata bentukan menjadi kata dasar bahasa Inggris dalam system menggunakan Algoritma Porter. Pemilihan algoritma Porter mempunyai alasan algoritma porter cukup terkenal dan sering digunakan dalam pembuatan system yang serupa. Porter sudah banyak yang menggunakan dan merupakan algoritma yang opensource serta porter tidak menggunakan kamus dalam prosesnya, sehingga waktu yang dihemat bisa digunakan untuk proses yang lain. Hasil proses stemming ditunjukan pada tabel 3-6 beserta perbedaannya sebelum dan sesudahnya.

Table 3‑6 :perbedaan term setelah dan sesudah proses Stemming

Array pre stemming Array pasca stemming
array Stemming:Array
(    
    [19] => correlation
    [20] => coefficients
    [21] =>
    [22] =>
    [23] => determined
    [24] =>
    [25] =>
    [26] => levels
    [27] =>
    [28] =>
    [29] => glucose
    [30] =>
    [31] => ffa
    [32] =>
    [33] => maternal
    [34] =>
    [35] => fetal
    [36] => plasma
    [37] => collected

)

array Stemming:Array
(  
    [19] => correl
    [20] => coeffici
    [21] =>
    [22] =>
    [23] => determin
    [24] =>
    [25] =>
    [26] => level
    [27] =>
    [28] =>
    [29] => glucose
    [30] =>
    [31] => ffa
    [32] =>
    [33] => matern
    [34] =>
    [35] => fetal
    [36] => plasma
    [37] => collect

)

Gambar 3-3 adalah mekanisme algoritma Stemming Porter yang mempunyai 4 aturan dari segi penghilangan imbuhan dan menjadikan menjadi kata dasar.

Gambar 3‑3 : mekanisme algoritma Porter

Ditulis dalam Tugas Akhir | Tinggalkan sebuah Komentar »

Algoritma Genetika

Posted by nonasahla pada Juli 18, 2009

weu… tugas akhir ternyata menyenangkan lho teman. tiap hari kita belajar da nbelajar tak kenal lelah, dan kalo udah kekejar ama deadline, wah waktu buat pipis aja ditahan2 biar semuanya.

anyway… TA gw tentang Information Retrieval dengan Algoritma, memang, udah banyak yang buat, tapi di luarnegeri sana.. jadi ga di Indonesia..

oleh karena itu klo ada yg bingung, kan gw tinggal sok tau.. begitu, masa2 menjalani TA adalah waktu yg sangat dahsyat… inilah kuliah selama 4 tahun dipertaruhkan. makanya kerjain tugas akhir dengan bener, karena wisuda oktober akan segera datang dan gw jadi pesertanya. amien….

Ditulis dalam learning | Tinggalkan sebuah Komentar »

A performance evaluation of similarity measures, document term weighting schemes and representations in a Boolean environment Terry Noreault, Michael McGill and Matthew B. Koli

Posted by nonasahla pada Juni 28, 2009

5.1 Introduction
This chapter reports on the results of a study of the effectiveness of ranking
algorithms. Also reported here will be some unexpected findings relating to the
performance of document representations and searcher differences. These
findings are a by-product of the evaluation of the ranking algorithm.
The goal of the study was to evaluate ranking algorithms so that
generalisations about their effectiveness could be made. Many different
ranking algorithms have been suggested (Sager and Lockemann, 1976).
Evaluation of the effectiveness of these algorithms has been conducted under
differing experimental conditions. These differences in the evaluation conditions
have made comparisons of ranking algorithms uncertain. This study
evaluated the effectiveness of the ranking algorithms using a single database,
common user population, and common sets of queries and relevance
judgements. This approach allowed the relative effectiveness of the ranking
algorithms to be determined. It is felt, but does need further examination, that
while the absolute effectiveness of any ranking algorithms may vary with the
environment, the relative effectiveness of the ranking algorithms will be
invariant.

sama kalo mau paper ini langsung leave komen, then kirim pesan ke email saya

Ditulis dalam learning | Tinggalkan sebuah Komentar »

A GA-based query optimization method for web information retrieval

Posted by nonasahla pada Juni 28, 2009

By a different use of relevance feedback (the order in which the relevant documents are retrieved, the terms of the relevant documents, and the terms of the irrelevant documents) in the design of fitness function, and by introducing three different genetic operators, we have developed a new genetic algorithm-based query optimization method on relevance feedback for Web information retrieval. Based on three benchmark test collections Cranfield, Medline and CACM, experiments have been carried out to compare our method with three well-known query optimization methods on relevance feedback: the traditional Ide Dec-hi method, the Horng and Yeh’s GA-based method and the Lo´pez-Pujalte et al.’s GA-based method. The experiments show that our method can achieve better results.  2006 Elsevier Inc. All rights reserved.

nah kalau ada yang mau paper ini, silakan kasi komen terus kirim pesan ke email sya ya…

sahla_space@yahoo.com

Ditulis dalam learning | Tinggalkan sebuah Komentar »

Paper-paper gw

Posted by nonasahla pada Juni 15, 2009

Analyzing PCA-based Face Recognition Algorithms: Eigenvector
Selection and Distance Measures

Abstract
This study examines the role of Eigenvector selection and Eigenspace distance measures on PCA-based face
recognition systems. In particular, it builds on earlier results from the FERET face recognition evaluation studies,
which created a large face database (1,196 subjects) and a baseline face recognition system for comparative evaluations.
This study looks at using a combinations of traditional distance measures (City-block, Euclidean, Angle,
Mahalanobis) in Eigenspace to improve performance in the matching stage of face recognition. A statistically significant
improvement is observed for the Mahalanobis distance alone when compared to the other three alone. However,
no combinations of these measures appear to perform better than Mahalanobis alone. This study also examines
questions of how many Eigenvectors to select and according to what ordering criterion. It compares variations in
performance due to different distance measures and numbers of Eigenvectors. Ordering Eigenvectors according to a
like-image difference value rather than their Eigenvalues is also considered.

Face processing and detection
using Artificial Neural Networks
and Image Processing

Outline
1. – Introduction to neural networks
Neural networks learning
Perceptron and Adaline networks
5. – Autoassociative memory
Principal Components Analysis
Wavelet Transform and Face recognition
9. – Multi-Layer Perceptron
Back-Propagation learning rule
Face identification
12. – Radial Basis Function neural network
Unsupervised training technique
Face detection and identification in video sequences

Ditulis dalam learning | Tinggalkan sebuah Komentar »

PCA-BASED FACE RECOGNITION IN INFRARED IMAGERY: BASELINE AND COMPARATIVE STUDIES

Posted by nonasahla pada Juni 15, 2009

Face recognition from images is a sub-area of the general object recognition prob-
lem. Identifying an individual from his or her face is one of the most nonintrusive
modalities in biometrics. It is of particular interest in a wide variety of applications.
PCA is a technique commonly used in dimensionality reduction in computer vi-
sion and particularly in face recognition. PCA techniques, also known as Karhunen-
Loeve methods, choose a linear projection that reduces the dimensionality while
maximizing the scatter of all projected samples.
Although the current face recognition systems have achieved good results for
faces that are taken in a controlled environment, they perform poorly in uncontrolled
situations. It appears evident that breakthrough solutions to tough computer vision
problems can probably be found by looking beyond the visual modality.
Infrared imagery is an intriguing sensing modality for face recognition systems.
It may o er better performance than other modalities due to its robustness to en-
vironmental e ects and possibly to deliberate attempts to obscure identity.
Towards this end, this thesis presents a study of the performance of a baseline
algorithm, principal component analysis, in infrared imagery. The impact of illumi-
nation change, facial expression change and short and medium term change in face
appearance on recognition performance in infrared imagery are explored through
Xin Chen
the experiments; we also present an initial comparative study employing infrared
and visible-light imagery.

mau dokumen ini, komen ya, ntar sy kirimkan… makasi

Ditulis dalam learning | Tinggalkan sebuah Komentar »

LOPHOSCOPIC PCA: A NOVEL METHOD FOR FACE RECOGNITION1

Posted by nonasahla pada Juni 15, 2009

ABSTRACT
In this paper, a new technique called Lophoscopic PCA is
developed for recognition of partially occluded faces and
faces with strong facial expression variations. As opposed
to the PCA or the Eigenfeatures approaches, this method
does not try to solve the face recognition problem neither
from a holistic, nor a feature perspective; in fact it studies
the problem from a near or pseudo-holistic perspective.
The main idea is to “eliminate” some features which may
cause a reduction of the recognition accuracy under
special conditions (facial expression variations or
appearance of disguises). To test and evaluate the
performance of the new technique, a series of experiments
are carried out on the UPC face database. The
experimental results have shown that using Lophoscopic
PCA the recognition accuracy can increase in
comparison with the classical PCA method and be more
robust against exaggerated changes in the facial
expression or the appearance of objects like sun glasses.

hai semua… sy ini berbagi paper yang sudah sy anggap belum terlalu berguna ya… nah.. kalau ada yg mau ini paper, sy bisa kirim ke email anda… untuk keterangan lebih lanjut silakan untuk komen di bawah ya..

Ditulis dalam learning | Tinggalkan sebuah Komentar »

 
Ikuti

Get every new post delivered to your Inbox.