Tīmekļa rāpuļprogramma

Tīmekļa rāpuļprogramma (angļu: web crawler), saukta arī par zirnekli[1] (angļu: spider), ir programmatūra, kas sistemātiski pārlūko vispasaules tīmekli, lejupielādē tīmekļa vietņu saturu un to indeksē (informāciju par vietnēm ievieto datubāzē). Tipiski rāpuļprogrammas izmanto meklētājprogrammas, lai iegūtu informāciju par tīmekļa vietnēm.

Rāpuļprogrammas darbība sākas ar sēklu — tīmekļa vietņu URL sarakstu, kuras tam jāapmeklē. Kad programma pārlūko šīs vietnes, tā identificē hipersaites tajās un pievieno to adreses apmeklējamo URL sarakstam, tādējādi paplašinot sev zināmo tīmekļa vieņu sarakstu. Tā kā vispasaules tīmeklis ir plašs, rāpuļprogrammai ir nepieciešams izvēlēties, kuras vietnes tā apmeklēs vispirms. To izdara, balstoties uz vairākiem faktoriem, piemēram, cik bieži citas vietnes satur saites uz šo lapu, cik bieži tā tiek apmeklēta vai arī citiem faktoriem, kas norāda, ka šī vietne satur svarīgu informāciju. Tāpat ir nepieciešams vietnes apmeklēt atkārtoti, jo saturs tīmeklī tiek regulāri izmainīts un atjaunots.

Tā kā rāpuļprogrammas rada noslogojumu apmeklētajām vietnēm un ne visi tīmekļa vietņu operatori vēlas, lai tās tiktu indeksētas, ir izstrādāti mehānismi, kā vietne var informēt rāpuļprogrammu, ja tā nevēlas, lai to indeksētu. Iekļaujot robots.txt failu, vietne var dot norādes neindeksēt konkrēto vietni vispār vai arī indeksēt tikai daļu no tās.

Ņemot vērā tīmekļa izmērus, pilnīga tīmekļa indeksēšana nav reālistiska. 2009. gada pētījums lēš, ka pat lielākās meklētājprogrammas nav indeksējušas vairāk par 40—70% no indeksējamā tīmekļa.[2] Tāpat ne visas tīmekļa vietnes ir iespējams indeksēt, piemēram, rāpuļprogrammai nav iespējas uzzināt par tīmekļa vietnes eksistenci, uz kuru neved neviena hipersaite.

Par pirmo tīmekļa rāpuļprogrammu uzskata 1993. gadā izstrādāto World Wide Web Wanderer, kuras mērķis bija interneta izaugsmes mērīšana. 1994. gadā tika palaists WebCrawler, kas bija pirmā publiski pieejamā meklētājprogramma, kam bija pieejams pilna teksta saturs. No šīs programmas radās rāpuļprogrammu nosaukums. Palielinoties meklētājprogrammu skaitam, strauji pieauga arī rāpuļprogrammu skaits. Tiek lēsts, ka 2002. gadā 40% no tīmekļa satiksmes īstenoja rāpuļprogrammas.[3]

Rāpuļprogrammu saraksts labot šo sadaļu

  • ApplebotApple rāpuļprogramma, atbalsta Siri un citus uzņēmuma produktus.[4]
  • BingbotMicrosoft meklētājprogrammas Bing rāpuļprogramma.
  • BaiduspiderBaidu rāpuļprogramma.
  • DuckDuckBotDuckDuckGo rāpuļprogramma.
  • GooglebotGoogle rāpuļprogramma, sastāv no divām programmām — Googlebot Desktop un Googlebot Mobile (simulē darbvirsmas un mobilos lietotājus attiecīgi).
  • Yahoo! Slurp — bija Yahoo! rāpuļprogramma, līdz Yahoo! noslēdza vienošanos ar Microsoft par Bingbot izmantošanu.
  • YandexBotYandex rāpuļprogramma.

Atsauces labot šo sadaļu

  1. «zirneklis». Tēzaurs. Skatīts: 2023-07-04.
  2. Gulls, A., A. Signori. «The indexable web is more than 11.5 billion pages». Special interest tracks and posters of the 14th international conference on World Wide Web. ACM Press, 2005. 902–903. lpp. doi:10.1145/1062745.1062789.
  3. X. Yuan, M. H. MacGregor, J. Harms: An efficient scheme to remove crawler traffic from the Internet. Computer Communications and Networks, 2002. Proceedings. Eleventh International Conference on Communications and Networks
  4. «About Applebot». Apple Inc. Skatīts: 2021. gada 18. oktobris.

Ārējās saites labot šo sadaļu