UTS Information Retrieval (IR)
Soal:
1. Apakah yang dimaksud dengan IR ?
2. Bagaimana cara kerja IR ? Jelaskan dengan detail.
3. Bagaimana masa depan IR? Lakukan analisa
/ research yang mendalam.
Jawaban
1. Information Retrieval (IR) adalah suatu cara, metode, kegiatan atau
proses sistem memperoleh sumber daya informasi, yang digunakan untuk menemukan
kembali (retrieve) dokumen yang relevan terhadap kebutuhan user dari suatu
kumpulan informasi berdasarkan kata kunci atau keywords atau query dari user
yang berkutat dengan pengindeksian dan pengambilan informasi dari sumber
informasi heterogen yang berjumlah besar. Informasi atau data yang dicari
dapat berupa teks, image, audio, video dan lain-lain. Proses indexing dilakukan
untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan
kata lain, indexing merupakan proses persiapan yang dilakukan
terhadap dokumen sehingga dokumen siap untuk diproses sehingga akan dihasilkan
koleksi kata yang akan digunakan untuk meningkatkan performa pencarian pada
tahap selanjutnya. Koleksi data teks yang dapat dijadikan sumber pencarian
juga dapat berupa pesan teks, seperti e-mail, fax, dan dokumen berita, bahkan
dokumen yang beredar di internet. Selain menemukan dokumen
yang relevan terhadap query, IRS juga melakukan perangkingan terhadap
hasil pencarian tersebut. Suatu dokumen yang memiliki rangking yang
lebih tinggi daripada dokumen lain akan dianggap lebih relevan terhadap
query.
2. Cara
kerja Information Retrieval (IR) yaitu mencari dan menyimpan hampir semua
informasi halaman web, yang diambil langsung dari internet. Halaman-halaman ini
diambil secara otomatis, lalu isi setiap halaman dianalisis untuk menentukan
cara mengindeksnya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut metadata).
Semua data hasil pencarian disimpan dalam sebuah database, di indeks untuk
digunakan dalam pencarian selanjutnya ketika seorang pengguna mengunjungi mesin
pencari dan memasukkan query berupa
keyword atau kata kunci untuk mencari data yang mereka inginkan.
Proses yang terjadi di dalam Information
Retrieval System terdiri dari 2 bagian utama, yaitu Indexing subsystem, dan Searching
subsystem (matching system).
- Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses.
- Indexing system bertugas untuk menganalisa halaman web yang telah tersimpan sebelumnya dengan cara mengindeks setiap kemungkinan term yang terdapat di dalamnnya. Data term yang ditemukan disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.
Indexing system
mengumpulkan, memilah dan menyimpan data untuk memberikan kemudahan dalam
pengaksesan informasi secara tepat dan akurat. Proses pengolahan halaman web
agar dapat digunakan untuk proses pencarian berikutnya dinakamakan web indexing. Dalam implementasinya index system dirancang dari
penggabungan beberapa cabang ilmu antara lain ilmu bahasa, psikologi,
matematika, informatika, fisika, dan ilmu komputer.
Tujuan dari penyimpanan
data berupa indeks adalah untuk performansi dan kecepatan dalam menemukan
informasi yang relevan berdasarkan inputan user. Tanpa adanya indeks, search engine harus melakukan scan terhadap setiap dokumen yang ada
didalam database. Hal ini tentu saja akan membutuhkan proses sumber daya yang
sangat besar dalam proses komputasi. Sebagai contoh, indeks dari 10.000 dokumen
dapat diproses dalam waktu beberapa detik saja, sedangkan penulusuran secara
berurutan setiap kata yang terdapat di dalam 10.000 dokumen akan membutuhkan
waktu yang berjam lamanya. Tempat tambahan mungkin akan dibutuhkan di dalam
computer untuk penyimpanan indeks, tapi hal ini akan terbayar dengan
penghematan waktu pada saat pemrosesan pencarian dokumen yang dibutuhkan.
Proses indexing sendiri meliputi 2 proses,
yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi
kata yang akan digunakan untuk meningkatkan performa pencarian pada tahap
selanjutnya.
·
Searching
subsystem yaitu proses menemukan kembali dokumen yang relevan dengan query yang
dimasukkan, hal ini dilakukan sebab tidak semua dokumen yang diambil
(retrieved) oleh sistem merupakan dokumen yang benar-benar sesuai dengan
keinginan user (relevan).
Inilah yang berhubungan
langsung dengan pengguna, meyediakan hasil pencarian informasi yang diinginkan.
Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan kata pencarian
biasanya dengan beberapa kata kunci, search system akan mencari data dari
indeks database, data yang cocok kemudian akan ditampilkan, biasanya disertai
ringkasan singkat mengenai judul dokumen dan terkadang sebagian teksnya.
Tahap-tahap
yang terjadi pada proses indexing ialah:
1) Word Token, yaitu
mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter
dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi
lowercase.
2) Stopword
Removal. Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen
seperti: and, or, not dan sebagainya.
3) Stemming.
Proses mengubah suatu kata bentukan menjadi kata dasar.
4) Term Weighting.
Proses pembobotan setiap term di dalam dokumen.
Model IR ada
tiga jenis, yaitu :
1) Model Boolean : merupakan model IR sederhana yang
berdasarkan atas teori himpunan dan aljabar boolean
2) Model Vector
Space : merupakan model IR yang merepresentasikan dokumen dan query dalam
bentuk vektor dimensional
3) Model
Probabilistic : merupakan model IR yang menggunakan framework probabilistic
Model ruang vektor dan model probabilistik
adalah model yang menggunakan pembobotan kata dan perangkingan dokumen. Hasil
retrieval yang didapat dari model-model ini adalah dokumen ter-rangking yang
dianggap paling relevan terhadap query.
Dalam model ruang vektor, dokumen dan query
direpresentasikan sebagai vektor dalam dalam ruang vektor yang disusun dalam
indeks term, kemudian dimodelkan dengan persamaan geometri. Sedangkan model
probabilistik membuat asumsi-asumsi distribusi term dalam dokumen relevan dan
tidak relevan dalam sistem estimasi kemungkinan relevansi suatu dokumen
terhadap suatu query.
Gambar
1. Information Retrieval System
3.
Masa
depan Information Retrieval (IR)
Masa depan IR dilihat dari perkembangan
penduduk dan minat penduduk dunia terhadap penyajian informasi melalui media
internet, dimana Jumlah pengguna Internet yang besar dan semakin berkembang,
telah mewujudkan budaya Internet disegala sektor kehidupan. Internet juga
mempunyai pengaruh yang besar atas ilmu, dan pandangan dunia. Dengan hanya
berpandukan mesin pencari seperti Google, pengguna di seluruh dunia mempunyai
akses Internet yang mudah atas bermacam-macam informasi. Dibanding dengan buku
dan perpustakaan, Internet melambangkan penyebaran (decentralization) /
pengetahuan (knowledge) informasi dan data secara ekstrim. Dimana pada
saat ini mesin pencarian sudah mengembangkan teknologinya dengan berbasis kecerdasan
buatan (artificial intelligence), dengan diterapkannya teknologi tersebut maka masa depan IR terus
berevolusi, tanpa user memasukkan query yang akan dicari tapi juga lebih interaktif
dengan menampilkan informasi yang sedang berlangsung saat ini. Informasi tidak
hanya teks tapi juga menampilkan foto dan video dari hasil link teks tersebut
bahkan akan terhubung ke website e-government yang pernah merekam kegiatan
seseorang, apabila kita mencari nama seseorang.
Semakin banyaknya penduduk dunia, dimana
National Science Foundation bahkan memprediksi bahwa pengguna internet akan
membludak hingga lima miliar orang, dengan demikian IR akan membawa konten
berkapasitas exabytes bahkan zettabytes dalam dunia internet yang artinya
juga sangat berpengaruh pada layanan Search Engine sebagai implemetasi IR
dengan demikian IR tidak hanya didapatkan dalam internet tetapi dalam
perkembangannya bisa mobile dimana saja dengan aplikasinya. Dalam konteks
mobile seperti sistem mungkin mengambil bentuk sebuah aplikasi yang
merekomendasikan tempat-tempat menarik dan kegiatan berdasarkan lokasi
pengguna, preferensi pribadi, sejarah masa lalu, dan faktor-faktor lingkungan
seperti cuaca dan waktu. Dengan kian banyaknya pengguna internet di pedalaman
dan mereka yang bergantung pada komunikasi wireless, arsitektur internet
mengharuskan pengguna selalu memiliki koneksi yang terus ‘on’. Sebagai
gantinya, para ilmuwan kini tengah mengembangkan teknik komunikasi yang bisa
menolerir delay atau melakukan komunikasi dari pengguna satu ke yang lainnya
dengan cara berbeda, terutama bagi aplikasi mobile. Teknik ini akan bergantung
pada sebuah teknologi bernama inter-planetary Internet protocol.
gagah amat eta photo na....
BalasHapusHahaha.... laju bae....
HapusKomentar ini telah dihapus oleh pengarang.
BalasHapusSaya mau tanya, selain ketiga model IR di atas. apakah bisa menggunakan model data mining lainnya seperti KNN, Naive Bayes, Apriori?
BalasHapusMOhon penjelasannya terimakasih
Selain tiga model data mining diatas, bisa saja menggunakan model data mining yang lainnya, dengan semakin banyaknya penemuan-penemuan dengan didukung teori-teori yang ada serta dibuktikan dengan research yang semakin berkembang, tidak menutup kemungkinan ke depan akan banyak lagi teori untuk data mining, yang saya paparkan diatas hanyalah sebagian kecil dari beberapa teori tentang data mining.
Hapus