Definition fan Spidering en Web Crawlers

by Lahle Wolfe

Spiders & Web Crawlers: Wat jo witte wolle om Webside-data te beskermjen

Spiders binne programma's (of automatisearre skripts) dy't 'krûpe' fia it web sykje fan gegevens. Spiders reizje fia webstee URLs en kinne gegevens fan web siden lykas e-mailadressen lûke. Spinnen wurde ek brûkt om ynformaasje te fieren op websiden om moters te sykjen.

Spiders, dy't ek wol 'web crawlers' neamd binne, sykje it web en binne net allegear freonlik yn har bedoeling.

Spamers Spiderwebsjes om ynformaasje te sammelen

Google, Yahoo!

en oare sykmasjines binne net de iennichste dy't ynteressearje yn crawlen fan websiden - sa binne scammers en spamers.

Spiders en oare automatyske ynstruminten wurde brûkt troch spamers om e-postadressen te finen (yn 'e ynternet wurdt dizze praktyk faak bepaald as' gewaaksjen ') op websiden en brûk dan se om spamlisten te meitsjen.

Spiders binne ek in ark dat brûkt wurdt troch sykmasines om mear ynformaasje te finen oer jo webside, mar litte jo net wiske, in webside sûnder ynstruksjes (of 'permissions') oer hoe jo jo site te krijen kinne grutte gegevens foar ynformaasje oer feiligens fan ynformaasje jaan. Spinnen reizje troch folgjende keppelings, en se binne tige adept om te finen fan keppelings nei databases, programma triemen en oare ynformaasje dêr't jo net wolle dat se tagong hawwe.

Webmasters kinne logs sjen om te sjen hokker spinnen en oare robots harren siden besocht hawwe. Dizze ynformaasje helpt webmasters dy't wa't de site yndeksearret, en hoe faak.

Dizze ynformaasje is brûkber omdat it makket webmasters mooglik om har SEO te finen en robot.txt bestannen te ferbinen om beskate robots te keapjen fan har side yn 'e takomst.

Tips foar it beskermjen fan jo webside fan ûnbedachte robotkriflers

Der is in frij ienfâldige manier om unwanted crawlers út jo webside te hâlden. Ek as jo net besocht hawwe oer binearjende spiders dy't jo side krigearje (it e-mailadres befetsje jo net beskermje fan 'e meast crawlers), moatte jo dochs sykmasines jaan moatte mei wichtige ynstruksjes.

Alle websiden moatte in triem hawwe yn 'e root-triemtafel as in robots.txt-bestân. Dizze triem lit jo in webkrollers oanmeitsje wêr't jo wolle dat se siden sykje yn 'e siden (oars as net in oantsjutte dat op in spesifike side opnommen is) as se in sykmasine binne.

Krekt as jo kinne winsken krije te wierskynlik wêr't jo wolle dat se blêdzje kinne, kinne jo ek fertelle wêr't se net kinne en spesjale crawlers fan jo hiele webside blokkearje.

It is belang om te hâlden dat in goed keppele robots.txt-triem hat in geweldige wearde foar sykmasines en kin sels in wichtich elemint wêze foar it ferbetterjen fan jo optreden fan 'e webside, mar guon robotcollers sille jo ynstruksjes noch hieltyd bewurkje. Om dy reden is it wichtich om alle software, plugins, en apps op hokker stuit altyd te hâlden.

Besibbe artikels en ynformaasje

Troch it foarkommen fan ynformaasje fan it yngewikkeljen fan ferwidering (spam) doelen, waard wetjouwing yn 2003 passearre om beskate praktiken te pleatsen. Dizze wetten fan 'e konsumpsje-beskerming falle ûnder de CAN-SPAM Act fan 2003.

It is wichtich dat jo de tiid nimme op it CAN-SPAM Act te lêzen as jo bedriuw oanmeitsje oan alle massaarmings of ynformaasjeynformaasje.

Jo kinne mear fine oer anty-spamwetten en hoe tegearre mei spamers te krijen, en wat jo as bedriuwsbesitzer net dwaan kinne, troch de folgjende artikels te lêzen:

CAN-SPAM Act 2003
CAN-SPAM Act regels foar nonprofiten
5 CAN-SPAM-regels Lytshannelers moatte ferstean

Spamers Spiderwebsjes om ynformaasje te sammelen

Tips foar it beskermjen fan jo webside fan ûnbedachte robotkriflers

Besibbe artikels en ynformaasje

Related Content

Fresh articles

Intresting articles