Kuidas blokeerida saidi indekseerimine failis robots.txt: juhised ja soovitused

Sisukord:

Kuidas blokeerida saidi indekseerimine failis robots.txt: juhised ja soovitused
Kuidas blokeerida saidi indekseerimine failis robots.txt: juhised ja soovitused
Anonim

SEO optimeerija töö on väga ulatuslik. Algajatel soovitatakse optimeerimisalgoritm üles kirjutada, et mitte ühtegi sammu vahele jätta. Vastasel juhul ei nimetata reklaami edukaks, kuna saidil esineb pidev alt tõrkeid ja vigu, mida tuleb pikka aega parandada.

Üks optimeerimisetappidest on töötamine failiga robots.txt. See dokument peaks olema igal ressursil, sest ilma selleta on optimeerimisega keerulisem toime tulla. See täidab paljusid funktsioone, millest peate aru saama.

Roboti assistent

Fail robots.txt on lihttekstidokument, mida saab vaadata süsteemi standardses Notepadis. Selle loomisel tuleb määrata kodeeringuks UTF-8, et seda saaks õigesti lugeda. Fail töötab http, https ja FTP protokollidega.

See dokument on abiline robotite otsimisel. Kui te ei tea, kasutab iga süsteem "ämblikke", mis roomavad kiiresti veebis, et tagastada päringute jaoks asjakohased saidid.kasutajad. Nendel robotitel peab olema juurdepääs ressursiandmetele, robots.txt töötab selleks.

Selleks, et ämblikud leiaksid oma tee, peate saatma dokumendi robots.txt juurkataloogi. Kontrollimaks, kas saidil see fail on, sisestage brauseri aadressiribale "https://site.com.ua/robots.txt". "site.com.ua" asemel peate sisestama vajaliku ressursi.

Töötamine failiga robots.txt
Töötamine failiga robots.txt

Dokumendifunktsioonid

Fail robots.txt pakub roomajatele mitut tüüpi teavet. See võib anda osalise juurdepääsu, nii et "ämblik" skannib ressursi konkreetseid elemente. Täielik juurdepääs võimaldab teil kontrollida kõiki saadaolevaid lehti. Täielik keeld ei lase robotitel isegi kontrollima hakata ja nad lahkuvad saidilt.

Pärast ressursi külastamist saavad "ämblikud" päringule asjakohase vastuse. Neid võib olla mitu, kõik sõltub failis robots.txt olevast teabest. Näiteks kui skannimine õnnestus, saab robot koodi 2xx.

Võib-olla on sait ühelt lehelt teisele ümber suunatud. Sel juhul saab robot koodi 3xx. Kui see kood esineb mitu korda, järgib ämblik seda, kuni saab uue vastuse. Kuigi reeglina kasutab ta ainult 5 katset. Vastasel juhul kuvatakse populaarne tõrge 404.

Kui vastus on 4xx, siis on robotil lubatud kogu saidi sisu roomata. Kuid koodi 5xx puhul võib kontroll täielikult katkeda, kuna see viitab sageli ajutistele serveritõrgetele.

Otsi roboteid
Otsi roboteid

Millekskas vajate faili robots.txt?

Nagu võisite arvata, on see fail robotitele saidi juurte juhendiks. Nüüd kasutatakse seda sobimatule sisule juurdepääsu osaliseks piiramiseks:

  • lehed kasutajate isikuandmetega;
  • peegelsaidid;
  • otsingutulemused;
  • andmete esitamise vormid jne.

Kui saidi juurtes pole faili robots.txt, roomab robot absoluutselt kogu sisu. Seetõttu võivad otsingutulemustes ilmuda soovimatud andmed, mis tähendab, et kannatavad nii teie kui ka sait. Kui dokumendis robots.txt on spetsiaalsed juhised, siis "ämblik" järgib neid ja annab välja ressursi omaniku soovitud teabe.

Failiga töötamine

Et kasutada faili robots.txt saidi indekseerimise blokeerimiseks, peate välja mõtlema, kuidas see fail luua. Selleks järgige juhiseid:

  1. Looge dokument Notepadis või Notepad++.
  2. Määrake faililaiend ".txt".
  3. Sisestage vajalikud andmed ja käsud.
  4. Salvestage dokument ja laadige see saidi juurjuurde.

Nagu näete, on ühes etapis vaja määrata robotite käsud. Neid on kahte tüüpi: lubavad (Luba) ja keelavad (Disallow). Mõned optimeerijad võivad määrata ka roomamiskiiruse, hosti ja lingi ressursi lehekaardile.

Kuidas sulgeda sait indekseerimisest
Kuidas sulgeda sait indekseerimisest

Robots.txt-ga töötamise alustamiseks ja saidi indekseerimise täielikuks blokeerimiseks peate mõistma ka kasutatavaid sümboleid. Näiteks dokumendiskasutage "/", mis näitab, et kogu sait on valitud. Kui kasutatakse "", on vaja märgijada. Sel viisil on võimalik määrata konkreetne kaust, mida saab skannida või mitte.

Bottide funktsioon

Otsingumootorite jaoks mõeldud "ämblikud" on erinevad, nii et kui töötate korraga mitmes otsingumootoris, peate selle hetkega arvestama. Nende nimed on erinevad, mis tähendab, et kui soovite konkreetse robotiga ühendust võtta, peate määrama selle nime: "User Agent: Yandex" (ilma jutumärkideta).

Kui soovite seada juhiseid kõikidele otsingumootoritele, peate kasutama käsku: "User Agent: " (ilma jutumärkideta). Saidi indekseerimise nõuetekohaseks blokeerimiseks faili robots.txt abil peate teadma populaarsete otsingumootorite eripära.

Fakt on see, et kõige populaarsematel otsingumootoritel Yandex ja Google on mitu robotit. Igal neist on oma ülesanded. Näiteks Yandex Bot ja Googlebot on peamised "ämblikud", kes saidil roomavad. Teades kõiki roboteid, on oma ressursi indekseerimist lihtsam täpsustada.

Kuidas fail robots.txt töötab
Kuidas fail robots.txt töötab

Näited

Seega saate faili robots.txt abil sulgeda saidi indekseerimise lihtsate käskudega, peamine on aru saada, mida konkreetselt vajate. Näiteks kui soovite, et Googlebot teie ressursile ei läheneks, peate andma sellele vastava käsu. See näeb välja selline: "User-agent: Googlebot Disallow: /" (ilma jutumärkideta).

Nüüd peame mõistma, mis selles käsus on ja kuidas see töötab. Seega "kasutajaagent"kasutatakse selleks, et kasutada otsekõnet ühele robotitest. Järgmisena näitame, millisele, meie puhul on see Google. Käsk "Disallow" peab algama uuelt re alt ja keelama robotil saidile sisenemise. Kaldkriips näitab sel juhul, et käsu täitmiseks on valitud ressursi kõik leheküljed.

Mille jaoks fail robots.txt on mõeldud?
Mille jaoks fail robots.txt on mõeldud?

Robots.txt-failis saate kõigi otsingumootorite indekseerimise keelata lihtsa käsuga: "User-agent:Disallow: /" (ilma jutumärkideta). Tärn tähistab sel juhul kõiki otsinguroboteid. Tavaliselt on sellist käsku vaja saidi indekseerimise peatamiseks ja sellega põhjaliku töö alustamiseks, mis muidu võib optimeerimist mõjutada.

Kui ressurss on suur ja sellel on palju lehti, sisaldab see sageli omandiõigusega kaitstud teavet, mida ei ole soovitav avaldada või võib see reklaamimist negatiivselt mõjutada. Sel juhul peate mõistma, kuidas sulgeda leht failis robots.txt indekseerimisest.

Saate peita kas kausta või faili. Esimesel juhul peate uuesti alustama, võttes ühendust konkreetse robotiga või kõigiga, seega kasutame käsku "User-agent" ja allpool määrame konkreetse kausta jaoks käsu "Disallow". See näeb välja selline: "Disallow: / folder /" (ilma jutumärkideta). Nii peidate kogu kausta. Kui see sisaldab mõnda olulist faili, mida soovite näidata, siis peate kirjutama alloleva käsu: "Allow: /folder/file.php" (ilma jutumärkideta).

Kontrolli faili

Kui kasutate saidi sulgemiseks faili robots.txtTeil õnnestus indekseerimine, kuid te ei tea, kas kõik teie juhised töötasid õigesti, saate kontrollida töö õigsust.

Esm alt peate uuesti kontrollima dokumendi paigutust. Pidage meeles, et see peab olema ainult juurkaustas. Kui see on juurkaustas, siis see ei tööta. Järgmisena avage brauser ja sisestage sinna järgmine aadress: "https://yoursite. com/robots.txt" (ilma jutumärkideta). Kui saate oma veebibrauseris veateate, pole fail seal, kus see olema peaks.

Kuidas sulgeda kaust indekseerimisest
Kuidas sulgeda kaust indekseerimisest

Direktiive saab kontrollida spetsiaalsetes tööriistades, mida kasutavad peaaegu kõik veebihaldurid. Me räägime Google'i ja Yandexi toodetest. Näiteks Google'i otsingukonsoolis on tööriistariba, kus peate avama "Crowl" ja seejärel käivitama "Robots.txt failikontrolli tööriista". Peate kopeerima kõik andmed dokumendist aknasse ja alustama skannimist. Täpselt sama kontrolli saab teha Yandex. Webmasteris.

Soovitan: