UTS Information Retrieval (IR)



Soal:
1.      Apakah yang dimaksud dengan IR ?
2.      Bagaimana cara kerja IR ? Jelaskan dengan detail.
3.      Bagaimana masa depan IR? Lakukan analisa / research yang mendalam.

Jawaban

1.   Information Retrieval (IR) adalah suatu cara, metode, kegiatan atau proses sistem memperoleh sumber daya informasi, yang digunakan untuk menemukan kembali (retrieve) dokumen yang relevan terhadap kebutuhan user dari suatu kumpulan informasi berdasarkan kata kunci atau keywords atau query dari user yang berkutat dengan pengindeksian dan pengambilan informasi dari sumber informasi heterogen yang berjumlah besar. Informasi atau data yang dicari dapat berupa teks, image, audio, video dan lain-lain. Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses sehingga akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performa pencarian pada tahap selanjutnya. Koleksi data teks yang dapat dijadikan sumber pencarian juga dapat berupa pesan teks, seperti e-mail, fax, dan dokumen berita, bahkan dokumen yang beredar di internet. Selain menemukan dokumen yang relevan terhadap query, IRS juga melakukan perangkingan terhadap hasil pencarian tersebut. Suatu dokumen yang memiliki rangking yang lebih tinggi daripada dokumen lain akan dianggap lebih relevan terhadap query.



2.   Cara kerja Information Retrieval (IR) yaitu mencari dan menyimpan hampir semua informasi halaman web, yang diambil langsung dari internet. Halaman-halaman ini diambil secara otomatis, lalu isi setiap halaman dianalisis untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut metadata). Semua data hasil pencarian disimpan dalam sebuah database, di indeks untuk digunakan dalam pencarian selanjutnya ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query berupa keyword atau kata kunci untuk mencari data yang mereka inginkan.
Proses yang terjadi di dalam Information Retrieval System terdiri dari 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system).

  • Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses.

  • Indexing system bertugas untuk menganalisa halaman web yang telah tersimpan sebelumnya dengan cara mengindeks setiap kemungkinan term yang terdapat di dalamnnya. Data term yang ditemukan disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.

Indexing system mengumpulkan, memilah dan menyimpan data untuk memberikan kemudahan dalam pengaksesan informasi secara tepat dan akurat. Proses pengolahan halaman web agar dapat digunakan untuk proses pencarian berikutnya dinakamakan web indexing. Dalam implementasinya index system dirancang dari penggabungan beberapa cabang ilmu antara lain ilmu bahasa, psikologi, matematika, informatika, fisika, dan ilmu komputer.
Tujuan dari penyimpanan data berupa indeks adalah untuk performansi dan kecepatan dalam menemukan informasi yang relevan berdasarkan inputan user. Tanpa adanya indeks, search engine harus melakukan scan terhadap setiap dokumen yang ada didalam database. Hal ini tentu saja akan membutuhkan proses sumber daya yang sangat besar dalam proses komputasi. Sebagai contoh, indeks dari 10.000 dokumen dapat diproses dalam waktu beberapa detik saja, sedangkan penulusuran secara berurutan setiap kata yang terdapat di dalam 10.000 dokumen akan membutuhkan waktu yang berjam lamanya. Tempat tambahan mungkin akan dibutuhkan di dalam computer untuk penyimpanan indeks, tapi hal ini akan terbayar dengan penghematan waktu pada saat pemrosesan pencarian dokumen yang dibutuhkan.
Proses indexing sendiri meliputi 2 proses, yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performa pencarian pada tahap selanjutnya.

·         Searching subsystem yaitu proses menemukan kembali dokumen yang relevan dengan query yang dimasukkan, hal ini dilakukan sebab tidak semua dokumen yang diambil (retrieved) oleh sistem merupakan dokumen yang benar-benar sesuai dengan keinginan user (relevan).
Inilah yang berhubungan langsung dengan pengguna, meyediakan hasil pencarian informasi yang diinginkan. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan kata pencarian biasanya dengan beberapa kata kunci, search system akan mencari data dari indeks database, data yang cocok kemudian akan ditampilkan, biasanya disertai ringkasan singkat mengenai judul dokumen dan terkadang sebagian teksnya.

 Tahap-tahap yang terjadi pada proses indexing ialah:
1)     Word Token, yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase.
2)     Stopword Removal. Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not dan sebagainya.
3)     Stemming. Proses mengubah suatu kata bentukan menjadi kata dasar.
4)     Term Weighting. Proses pembobotan setiap term di dalam dokumen. 

Model IR ada tiga jenis, yaitu :
1)     Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar boolean
2)     Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional
3)     Model Probabilistic : merupakan model IR yang menggunakan framework probabilistic

Model ruang vektor dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan dokumen. Hasil retrieval yang didapat dari model-model ini adalah dokumen ter-rangking yang dianggap paling relevan terhadap query.
Dalam model ruang vektor, dokumen dan query direpresentasikan sebagai vektor dalam dalam ruang vektor yang disusun dalam indeks term, kemudian dimodelkan dengan persamaan geometri. Sedangkan model probabilistik membuat asumsi-asumsi distribusi term dalam dokumen relevan dan tidak relevan dalam sistem estimasi kemungkinan relevansi suatu dokumen terhadap suatu query.

Gambar 1. Information Retrieval System




3.          Masa depan Information Retrieval (IR)
Masa depan IR dilihat dari perkembangan penduduk dan minat penduduk dunia terhadap penyajian informasi melalui media internet, dimana Jumlah pengguna Internet yang besar dan semakin berkembang, telah mewujudkan budaya Internet disegala sektor kehidupan. Internet juga mempunyai pengaruh yang besar atas ilmu, dan pandangan dunia. Dengan hanya berpandukan mesin pencari seperti Google, pengguna di seluruh dunia mempunyai akses Internet yang mudah atas bermacam-macam informasi. Dibanding dengan buku dan perpustakaan, Internet melambangkan penyebaran (decentralization) / pengetahuan (knowledge) informasi dan data secara ekstrim. Dimana pada saat ini mesin pencarian sudah mengembangkan teknologinya dengan berbasis kecerdasan buatan (artificial intelligence), dengan diterapkannya teknologi tersebut maka masa depan IR terus berevolusi, tanpa user memasukkan query yang akan dicari tapi juga lebih interaktif dengan menampilkan informasi yang sedang berlangsung saat ini. Informasi tidak hanya teks tapi juga menampilkan foto dan video dari hasil link teks tersebut bahkan akan terhubung ke website e-government yang pernah merekam kegiatan seseorang, apabila kita mencari nama seseorang.
Semakin banyaknya penduduk dunia, dimana National Science Foundation bahkan memprediksi bahwa pengguna internet akan membludak hingga lima miliar orang, dengan demikian IR akan membawa konten berkapasitas exabytes bahkan zettabytes dalam dunia internet yang artinya juga sangat berpengaruh pada layanan Search Engine sebagai implemetasi IR dengan demikian IR tidak hanya didapatkan dalam internet tetapi dalam perkembangannya bisa mobile dimana saja dengan aplikasinya. Dalam konteks mobile seperti sistem mungkin mengambil bentuk sebuah aplikasi yang merekomendasikan tempat-tempat menarik dan kegiatan berdasarkan lokasi pengguna, preferensi pribadi, sejarah masa lalu, dan faktor-faktor lingkungan seperti cuaca dan waktu. Dengan kian banyaknya pengguna internet di pedalaman dan mereka yang bergantung pada komunikasi wireless, arsitektur internet mengharuskan pengguna selalu memiliki koneksi yang terus ‘on’. Sebagai gantinya, para ilmuwan kini tengah mengembangkan teknik komunikasi yang bisa menolerir delay atau melakukan komunikasi dari pengguna satu ke yang lainnya dengan cara berbeda, terutama bagi aplikasi mobile. Teknik ini akan bergantung pada sebuah teknologi bernama inter-planetary Internet protocol.








Komentar

  1. Komentar ini telah dihapus oleh pengarang.

    BalasHapus
  2. Saya mau tanya, selain ketiga model IR di atas. apakah bisa menggunakan model data mining lainnya seperti KNN, Naive Bayes, Apriori?
    MOhon penjelasannya terimakasih

    BalasHapus
    Balasan
    1. Selain tiga model data mining diatas, bisa saja menggunakan model data mining yang lainnya, dengan semakin banyaknya penemuan-penemuan dengan didukung teori-teori yang ada serta dibuktikan dengan research yang semakin berkembang, tidak menutup kemungkinan ke depan akan banyak lagi teori untuk data mining, yang saya paparkan diatas hanyalah sebagian kecil dari beberapa teori tentang data mining.

      Hapus

Posting Komentar

Postingan populer dari blog ini

Solusi Blog Tidak Bisa Di Buka – Unusual Traffic Detected !

Penerapan Normalisasi dan Implementasi ke Database SQL Server