Win Web crawler adalah sebuah program/script otomatis yang memproses halaman web untuk operating system windows. Sering juga disebut dengan web spider atau web robot. Ide dasarnya sederhana dan mirip dengan saat anda menjelajahi halaman website secara manual dengan menggunakan browser. Bermula pada point awal berupa sebuah link alamat website dan dibuka pada browser, lalu browser melakukan request dan men-download data dari web server melalui protokol HTTP.
Setiap Hyperlink yang ditemui pada konten yang tampil akan dibuka lagi pada windows/tab browser yang baru, demikian proses terus berulang. Nah sebuah web crawler mengotomatisasikan pekerjaan itu.
fungsi dari wwc
1. Mengidentifikasikan Hyperlink.
Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.
2. Melakukan proses kunjungan/visit secara rekursif.
Dari setiap hyperlink, Web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaikan dengan keperluan aplikasi.
Dalam kerjanya, web crawler melakukan proses validasi terhadap HTML code dan tautan yang ditemukan pada situs yang dikunjungi. Setelah melakukan validasi, halaman web dan tautan tersebut didownload kemudian diparsing ke dalam tempat penyimpanan utama. Data yang dibawa oleh web crawler secara sederhana hanya berupa text dan metadata. Sedangkan data tautan yang ditemukan pada halaman web yang dikunjungi akan ditempatkan pada seeds (tempat penyimpanan data URL) masuk ke dalam antrian kunjungan selanjutnya web crawler. Secara simultan web crawler mengunjungi situs-situs yang alamatnya terdapat di dalam antrian sampai data URL habis atau dihentikan oleh administrator.
Alasan saya memakai ww c adalah daidalam wwc mempunyai kelebihan kelebihan sebagai berikut :
KELEBIHAN :
1. Mengetahui lebih detail tentang sebuah situs
2. Mampu mengeksplorasi rincian informasi sebuh situs dengan cepat
3. Ukuran file yg kecil
4. Cepat dalam mencari halaman web yg di tuju
KEKURANGAN :
1. Kurang efisien saat mengeksplorasi
0 komentar: