[Ilustrasi Oleh Pixabay]
Google ingin membuat Robots Exclusion Protocol (REP) yang berusia puluhan tahun sebagai standar resmi internet untuk sekarang ini. Dan sebagai salah satu upayanya, mereka telah membuat parser robots.txt menjadi open-source.
REP sendiri merupakan sebuah standar untuk situs web yang pertama kali diajukan oleh Martijn Koster pada tahun 1994. Standar ini menjadi rujukan bagi situs web untuk memberitahu web crawler otomatis mengenai bagian mana dari situs web yang tidak boleh diproses.
Salah satu contohnya adalah robots.txt yang dimiliki Google. Dengan menggunakan robots.txt, crawler milik Google, yakni Googlebot, dapat mengetahui instruksi khusus mengenai bagian situs yang mana yang harus diabaikan.
Namun jika tidak ada file tersebut di root pengembangan situs web, maka crawler buatan Google ini akan menganggap bahwa tidak apa-apa untuk mengindeks ke dalam seluruh bagian situs.
File semacam robots.txt juga kadang tidak secara langsung berfungsi untuk memberikan instruksi langsung kepada crawler otomatis. Namun pada beberapa kasus, file semacam ini juga bisa digunakan untuk menyimpan berbagai macam kata kunci, yang bisa digunakan untuk mengoptimalkan mesin pencari (search engine).
Akan tetapi perlu dicatat, bahwa tidak semua crawler akan patuh pada robots.txt, seperti yang terjadi pada Web Archive yang menarik semua dukungannya terhadap perlengkapan Wayback Machine Archiving beberapa tahun lalu.
Sayangnya, meskipun sering dianggap sebagai standar, REP tidak pernah menjadi standar yang sesungguhnya, sebagaimana didefinisikan oleh Internet Engineering Task Force (IETF) – organisasi standar terbuka nirlaba di internet.
Untuk itu, Google bekerja sama dengan Martijn Koster, webmaster dan penyedia layanan mesin pencari lainnya, untuk mengajukan proposal ke IETF yang berisi mengenai “bagaimana REP digunakan di web modern”.
Selaras dengan hal ini, Google pun meluncurkan library C++ yang mendukung sistem parsing dan pencocokan Googlebot di GitHub agar bisa diakses oleh siapa pun. Mereka ingin para pengembang dapat lebih mudah membuat parser, selayaknya robots.txt.
Hal ini ditunjukkan untuk menghindari kebingungan dari para pemilik situs web, karena adanya penafsiran instruksi yang berbeda dari mesin crawler pada robots.txt.
[Sumber: Venturebeat]