Sabtu, 08 Mei 2021

Tugas 6_Web Science

 1. Jelaskan Pengertian dan berikan contoh tentang Web Crawler :

Pengertian web crawler–atau sering juga disebut spiders— adalah sebuah tool untuk mengindeks dan mengunduh konten dari internet, lalu disimpan ke dalam database mesin pencari.

Contoh :

  • Bingbot dari Bing
  • Slurp Bot dari Yahoo
  • DuckDuckBot dari DuckDuckGO
  • Baiduspider dari Baidu (mesin pencari dari China)
  • Yandex Bot dari Yandex (mesin pencari dari Rusia)
  • Sogou Spider dari Sogou (mesin pencari dari China)
  • Exabot dari Exalead
  • Alexa Crawler dari Amazon

2. Jelaskan cara kerja dari Web Clawler :

Pertama, web crawler akan mengunjungi sebuah situs dan berbagai link yang terdapat dalam laman tersebut. Namun jika situsmu terbilang baru dan belum ada link lain di dalamnya, kamu bisa meminta search engine untuk mendatangi situsmu, seperti dikutip dari WebFX.

Caranya mudah. Kamu hanya perlu memasukkan URL situsmu di Google Search Console.

Kemudian, tugas tools web crawling berikutnya adalah mencatat setiap link yang mereka temukan ke indeks mereka.

Namun, perlu kamu catat bahwa web crawler hanya akan mengumpulkan informasi dari laman yang bersifat publik, ya. Web crawler tidak ikut mencatat laman private yang tidak dapat diakses.

Setelah itu, web crawler akan mengumpulkan berbagai informasi, seperti tulisan dan meta tag.

Informasi tersebut akan tersimpan dalam indeks search engine sehingga dapat muncul ketika pengguna mencari konten dengan keyword yang serupa.

3. Jelaskan fungsi dari web Crawler :

  1. Membandingkan Harga: Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat. Jadi, saat Anda mencari suatu produk, harga produk tersebut akan langsung muncul tanpa perlu masuk ke website penjualnya.
  2. Data untuk Tools Analisis: Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.
  3. Data Untuk Statistik: Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News. Untuk muncul di Google News, website memerlukan sitemap khsusus yang akan di-crawl oleh web crawler nantinya.

4. Jelaskan cara memblokir web Crawler :

Seperti yang sudah sedikit disinggung di atas, Anda bisa memblokir atau melarang web crawler untuk melakukan crawling menggunakan robots.txt.

Kenapa diblokir? Sebab, pada kondisi tertentu, ada konten yang tak perlu masuk indeks. Misalnya adalah konten duplikat. Konten duplikat ini justru bisa membuat website Anda dihapus dari indeks. Maka dari itu, sebaiknya konten duplikat ini tak diindeks oleh web crawler.

Selain itu, melarang web crawler melakukan crawling pada halaman yang tak penting bisa mengurangi beban website Anda dan mempercepat proses indexing.

Untuk cara membuat robots.txt dan bagaimana cara menerapkannya di website Anda, kami sudah memberikan panduannya di artikel ini.