Spidering ir interneto naršyklių apibrėžimas

Vorai ir interneto naršyklės: ką reikia žinoti, kad apsaugotų svetainės duomenis

"Spiders" yra programos (arba automatizuoti scenarijai), kurie "nuskaityta" per žiniatinklį, ieškantys duomenų. "Spiders" keliauja per svetainės URL ir gali ištraukti duomenis iš tokių tinklalapių kaip el. Pašto adresai. Vorai taip pat naudojami informacijos šaltiniui, kuris randamas tinklalapiuose paieškos sistemose.

Vorai, kurie taip pat vadinami "interneto skaitytuvais", ieškomi internete, o ne visi yra draugiški jų ketinimuose.

"Spamer" vorai "Spider" tinklalapiai rinkti informaciją

"Google", "Yahoo!"

ir kiti paieškos varikliai nėra vieninteliai, kurie nori nuskaityti tinklalapius - taip yra sukčiai ir nepageidaujamo e. pašto platintojai.

"Spiders" ir kitos automatizuotos priemonės yra naudojamos nepageidaujamo e. Pašto platintojams, norint rasti elektroninio pašto adresus (internete ši praktika dažnai vadinama "derliaus nuėmimu") tinklalapiuose ir tada jas naudoti norint kurti šlamšto sąrašus.

"Spiders" taip pat yra įrankis, naudojamas paieškos sistemose, norint sužinoti daugiau informacijos apie jūsų svetainę, bet paliktas nepažymėtas, svetainė be instrukcijų (arba "leidimų") apie tai, kaip naršyti jūsų svetainę, gali sukelti didelę informacijos saugumo riziką. "Spiders" keliauja naudodamiesi šiomis nuorodomis, ir jie yra labai įdomūs ieškodami nuorodų į duomenų bazes, programų failus ir kitą informaciją, kurios jums gali nereikės, kad jos galėtų pasiekti.

Žiniatinklio valdytojai gali peržiūrėti žurnalus, norėdami pamatyti, kokie vorai ir kiti robotai aplankė jų svetaines. Ši informacija padeda žiniatinklio valdytojams žinoti, kas jų svetainę indeksuoja ir kaip dažnai.

Ši informacija yra naudinga, nes ji leidžia žiniatinklio valdytojams tiksliai derinti savo SEO ir atnaujinti robot.txt failus, siekiant uždrausti tam tikriems robotams tikrinti svetainę ateityje.

Patarimai, kaip apsaugoti jūsų svetainę nuo nepageidaujamų robotų rowerów

Yra gana paprastas būdas išlaikyti nepageidaujamus skaitytuvus iš jūsų svetainės. Net jei nesate suinteresuotos piktybiniais vorais nuskaityti jūsų svetainę (užkirstas kelias el. Pašto adresas nebus apsaugotas nuo daugelio skaitytuvų), vis tiek turėtumėte pateikti paieškos sistemoms svarbias instrukcijas.

Visose svetainėse turėtų būti failas, esantis šakniniame aplanke, vadinamas robots.txt failu. Šis failas leidžia jums nurodyti interneto skaitytuvus, kuriuose jie nori ieškoti indeksavimo puslapių (jei nenurodyta kitaip konkretaus puslapio metaduomenys, kurie nėra indeksuojami), jei jie yra paieškos sistema.

Taip pat, kaip galite nurodyti pageidaujamus skaitytuvus, kur norite juos naršyti, taip pat galite pasakyti, kur jie negali eiti ir net blokuoti konkrečius skaitytuvus iš visos jūsų svetainės.

Svarbu nepamiršti, kad tinkamai sujungtas failas robots.txt turi didžiulę reikšmę paieškos sistemoms ir netgi gali būti pagrindinis elementas pagerinant jūsų svetainės našumą, tačiau kai kurie robotų tikrinimo įrankiai vis tiek ignoruoja jūsų instrukcijas. Dėl šios priežasties svarbu nuolat atnaujinti visą savo programinę įrangą, papildinius ir programas.

Susiję straipsniai ir informacija

Dėl informacijos apie piktnaudžiavimą (šlamštas) paplitimo 2003 m. Buvo priimta teisė tam tikrų veiksmų neteisėti. Šie vartotojų apsaugos įstatymai patenka į 2003 m. CAN-SPAM įstatymą.

Svarbu, kad jūs pažiūrėtumėte CAN-SPAM įstatymą, jei jūsų verslas užsiima masiniu paštu ar informacijos surinkimu.

Galite sužinoti daugiau apie kovos su šlamštinimu įstatymus ir tai, kaip elgtis su nepageidaujamaisiais laiškais ir ką jūs, kaip verslo savininkas, negalite padaryti, perskaitę šiuos straipsnius: