Kuidas faili Robots.txt õigesti seadistada?

Sisukord:

Kuidas faili Robots.txt õigesti seadistada?
Kuidas faili Robots.txt õigesti seadistada?
Anonim

Html-saidi õige robotite txt loob otsingumootori robotitele tegevusmaketid, andes neile teada, mida nad saavad kontrollida. Seda faili nimetatakse sageli robotite välistamise protokolliks. Esimene asi, mida robotid enne veebisaidil roomamist otsivad, on fail robots.txt. See võib osutada või käskida saidiplaanil teatud alamdomeene mitte kontrollida. Kui soovite, et otsingumootorid otsiksid seda, mida kõige sagedamini leitakse, pole faili robots.txt nõutav. Selle protsessi puhul on väga oluline, et fail oleks õigesti vormindatud ja ei indekseeriks kasutajalehte kasutaja isikuandmetega.

Roboti skaneerimise põhimõte

Roboti skaneerimise põhimõte
Roboti skaneerimise põhimõte

Kui otsingumootor leiab faili ja näeb keelatud URL-i, ei rooma ta sellel, kuid suudab selle indekseerida. Seda seetõttu, et isegi kui robotitel pole lubatud sisu vaadata, võivad nad meeles pidada tagasilinke, mis viitavad keelatud URL-ile. Kuna juurdepääs lingile on blokeeritud, ilmub URL otsingumootoritesse, kuid ilma fragmentideta. Kui asissetuleva turundusstrateegia jaoks on vajalik õige Robots txt for Bitrix (Bitrix), need tagavad saidi kontrollimise kasutaja taotlusel skannerite abil.

Teisest küljest, kui fail pole õigesti vormindatud, võib see põhjustada selle, et saiti ei kuvata otsingutulemustes ja seda ei leita. Otsingumootorid ei saa sellest failist mööda minna. Programmeerija saab vaadata mis tahes saidi faili robots.txt, minnes selle domeenile ja järgides seda failiga robots.txt, näiteks www.domain.com/robots.txt. Kasutades sellist tööriista nagu Unamo SEO optimeerimise jaotis, kuhu saate sisestada mis tahes domeeni ja teenus näitab teavet faili olemasolu kohta.

Skannimise piirangud:

  1. Kasutajal on aegunud või tundlikku sisu.
  2. Saidil olevaid pilte ei kaasata pildiotsingu tulemustesse.
  3. Sait ei ole veel demoks roboti poolt indekseerimiseks valmis.

Pidage meeles, et teave, mida kasutaja soovib otsingumootorist saada, on kättesaadav kõigile, kes URL-i sisestavad. Ärge kasutage seda tekstifaili tundlike andmete peitmiseks. Kui domeenil on tõrge 404 (ei leitud) või 410 (läbitud), kontrollib otsingumootor saiti vaatamata faili robots.txt olemasolule, sel juhul leiab ta, et fail puudub. Muud vead, nagu 500 (sisemine serveri viga), 403 (keelatud), aegunud või "pole saadaval", järgivad faili robots.txt juhiseid, kuid möödaviimine võib edasi lükata, kuni fail on saadaval.

Otsingufaili loomine

Otsingufaili loomine
Otsingufaili loomine

PaljudCMS-programmidel, näiteks WordPressil, on fail robots.txt juba olemas. Enne Robots txt WordPressi õiget konfigureerimist peab kasutaja tutvuma selle võimalustega, et aru saada, kuidas sellele juurde pääseda. Kui programmeerija loob faili ise, peab see vastama järgmistele tingimustele:

  1. Peab olema väiketähtedega.
  2. Kasutage UTF-8 kodeeringut.
  3. Salvesta tekstiredaktoris failina (.txt).

Kui kasutaja ei tea, kuhu seda paigutada, võtab ta ühendust veebiserveri tarkvara müüjaga, et uurida, kuidas pääseda juurde domeeni juurtele, või avada Google'i konsool ja see alla laadida. Selle funktsiooni abil saab Google kontrollida ka seda, kas robot töötab õigesti, ja faili abil blokeeritud saitide loendit.

Õige Robots txt põhivorming Bitrixi (Bitrix) jaoks:

  1. Legend robots.txt.
  2. , lisab kommentaare, mida kasutatakse ainult märkmetena.
  3. Skannerid ignoreerivad neid kommentaare koos kasutaja kirjavigadega.
  4. User-agent – näitab, millises otsingumootoris faili juhised on loetletud.
  5. Tärni () lisamine annab skanneritele teada, et juhised on mõeldud kõigile.

Tähistab konkreetset robotit, näiteks Googlebot, Baiduspider, Applebot. Disallow annab roomajatele teada, milliseid veebisaidi osi ei tohiks roomata. See näeb välja selline: Kasutajaagent:. Tärn tähendab "kõik robotid". Siiski saate konkreetsete lehtede jaoks määratarobotid. Selleks peate teadma selle roboti nime, mille jaoks soovitused on seatud.

Yandexi õige roboti txt võib välja näha järgmine:

Parandage Yandexi robotite txt
Parandage Yandexi robotite txt

Kui bot ei peaks saidil roomama, saate selle täpsustada ja kasutajaagentide nimede leidmiseks on soovitatav tutvuda saidi useragentstring.com võrguvõimalustega.

Lehekülje optimeerimine

Lehekülje optimeerimine
Lehekülje optimeerimine

Järgmist kahte rida loetakse täielikuks robots.txt-failiks ja üks robots-fail võib sisaldada mitut rida kasutajaagendeid ja käske, mis keelavad või lubavad roomamise. Õige robotite txt põhivorming:

  1. Kasutajaagent: [agendi kasutajanimi].
  2. Disallow: .

Failis kuvatakse iga käskkirjade plokk eraldiseisvana, eraldatuna joonega. Agendi kasutajakataloogi kõrval olevas failis rakendatakse iga reeglit teatud jaotistega eraldatud ridade komplektile. Kui failil on mitme agendi reegel, võtab robot arvesse ainult kõige spetsiifilisemat juhiste rühma.

Tehniline süntaks

Tehniline süntaks
Tehniline süntaks

Seda võib pidada failide robots.txt "keeleks". Selles vormingus võib olla viis terminit, millest peamised on järgmised:

  1. Kasutajaagent – roomamisjuhistega veebiroomik, tavaliselt otsingumootor.
  2. Disallow on käsk, mida kasutatakse, et käskida kasutajaagendil mööda minnakonkreetse URL-i (väljajätmine). Iga jaoks on ainult üks keelatud tingimus.
  3. Luba. Juurdepääsu saava Googleboti puhul keelatakse isegi kasutaja leht.
  4. Crawl-delay – määrab, mitu sekundit roomaja vajab enne roomamist. Kui robot seda ei kinnita, määratakse kiirus Google'i konsoolis.
  5. Saidiplaan – kasutatakse URL-iga seotud XML-kaartide asukoha leidmiseks.

Mustri vasted

Mis puudutab URL-ide tegelikku blokeerimist või kehtiva robotite txt-i lubamist, võivad toimingud olla üsna keerulised, kuna need võimaldavad teil kasutada mustri sobitamist mitme võimaliku URL-i parameetri katmiseks. Nii Google kui ka Bing kasutavad kahte märki, mis tuvastavad lehed või alamkaustad, mida SEO soovib välistada. Need kaks märki on tärn () ja dollarimärk ($), kus:on metamärk, mis tähistab mis tahes märgijada. $ – vastab URL-i lõpule.

Google pakub suurt loendit võimalikest malli süntaksitest, mis selgitavad kasutajale, kuidas robotite txt-faili õigesti seadistada. Mõned levinumad kasutusjuhud on järgmised:

  1. Takistage dubleeriva sisu ilmumist otsingutulemustes.
  2. Hoia kõik veebisaidi jaotised privaatsena.
  3. Salvestage otsingutulemuste sisemised lehed avatud lause põhjal.
  4. Märkige asukoht.
  5. Takistage otsingumootoritel teatud indekseerimistfailid.
  6. Rootsimise viivituse määramine mitme sisuala samaaegsel skannimisel uuesti laadimise peatamiseks.

Robotfaili olemasolu kontrollimine

Kui saidil pole roomamist vajavaid alasid, pole faili robots.txt üldse vaja. Kui kasutaja pole kindel, et see fail on olemas, peab ta sisestama juurdomeeni ja tippima selle URL-i lõppu, umbes nii: moz.com/robots.txt. Paljud otsingurobotid ignoreerivad neid faile. Reeglina ei kuulu need roomikud aga mainekatesse otsingumootoritesse. Need on rämpspostitajad, kirjade koondajad ja muud tüüpi automatiseeritud robotid, mida Internetis leidub ohtr alt.

Väga oluline on meeles pidada, et robotite välistamise standardi kasutamine ei ole tõhus turvameede. Tegelikult võivad mõned robotid alata lehtedega, kus kasutaja seab need skannimisrežiimi. Tavalises erandifailis on mitu osa. Enne kui ütlete robotile, millistel lehtedel see ei peaks töötama, peate määrama, millise robotiga rääkida. Enamikul juhtudel kasutab kasutaja lihtsat deklaratsiooni, mis tähendab "kõik robotid".

SEO optimeerimine

SEO optimeerimine
SEO optimeerimine

Enne optimeerimist peab kasutaja veenduma, et ta ei blokeeri sisu või saidi jaotisi, millest tuleb mööda minna. Õige Robotsi txt-ga blokeeritud linke lehtedele ei arvestata. See tähendab:

  1. Kui need ei ole lingitud teistele otsingumootoritele saadaolevatele lehtedele, nt. lehed,ei blokeerita robots.txt või metarobotiga ning seotud ressursse ei roomata ja seetõttu ei saa neid indekseerida.
  2. Blokeeritud lehelt ei saa linki lingi sihtkohta edastada. Kui selline leht on olemas, on parem kasutada teistsugust blokeerimismehhanismi kui robots.txt.

Kuna teised lehed võivad viidata otse isikuandmeid sisaldavale lehele ja soovite selle lehe otsingutulemustes blokeerida, kasutage mõnda muud meetodit, näiteks paroolikaitset või noindexi metaandmeid. Mõnel otsingumootoril on mitu kasutajaagenti. Näiteks kasutab Google orgaaniliste otsingute jaoks Googlebotit ja pildiotsingu jaoks Googlebot-Image'i.

Enamik sama otsingumootori kasutajaagendeid järgib samu reegleid, seega pole vaja iga roomaja jaoks juhiseid määrata, kuid see võimaldab täpsustada saidi sisu roomamist. Otsingumootor salvestab faili sisu vahemällu ja värskendab tavaliselt vahemällu salvestatud sisu vähem alt kord päevas. Kui kasutaja muudab faili ja soovib seda tavapärasest kiiremini värskendada, saab ta faili robots.txt URL-i Google'ile saata.

Otsingumootorid

Robotifaili olemasolu kontrollimine
Robotifaili olemasolu kontrollimine

Et mõista, kuidas Robots txt õigesti töötab, peate teadma otsingumootorite võimalusi. Lühid alt öeldes seisneb nende võimekus selles, et nad saadavad "skannereid", mis on programmid, misInternetis teabe saamiseks sirvimine. Seejärel salvestavad nad osa sellest teabest, et see hiljem kasutajale edastada.

Paljude inimeste jaoks on Google juba Internet. Tegelikult on neil õigus, sest see on võib-olla tema kõige olulisem leiutis. Ja kuigi otsingumootorid on nende loomisest saadik palju muutunud, on nende aluseks olevad põhimõtted endiselt samad. Indeksoijad, tuntud ka kui "robotid" või "ämblikud", leiavad lehti miljarditelt veebisaitidelt. Otsingumootorid annavad neile juhiseid, kuhu minna, samas kui üksikud saidid saavad suhelda ka robotitega ja öelda neile, milliseid konkreetseid lehti nad peaksid vaatama.

Üldiselt ei soovi saidiomanikud end otsingumootorites näha: administraatori lehtedel, taustaportaalides, kategooriates ja siltides ning muudes teabelehtedes. Faili robots.txt saab kasutada ka selleks, et takistada otsingumootoritel lehti kontrollimast. Lühid alt öeldes ütleb fail robots.txt veebiroomajatele, mida teha.

Blokeeri lehed

See on robotite välistamise faili põhiosa. Lihtsa deklaratsiooniga käsib kasutaja robotil või robotite rühmal teatud lehekülgi mitte roomata. Süntaks on lihtne, näiteks selleks, et keelata juurdepääs kõigele saidi "admin" kataloogis, kirjutage: Disallow: /admin. See rida takistab robotitel roomamast yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html ja kõike muud administraatori kataloogis.

Ühe lehe keelamiseks määrake see lihts alt keelamisreal: Disallow: /public/exception.html. Nüüd "erand" lehtei migreeru, kuid kõik muu avalikus kaustas migreerub.

Mitme lehe kaasamiseks loetlege need lihts alt:

Kataloogid ja lehed
Kataloogid ja lehed

Need neli rida õiget sümfoonia jaoks mõeldud Robots-txt-faili kehtivad iga kasutajaagendi kohta, mis on loetletud https://www.symphonyspace.org/. jaotiserobots.txt ülaosas.

Keela lehed
Keela lehed

Saidiplaan:

Muud käsud:live – ära luba veebiroomajatel indekseerida cpresources/ või pakkuja/.

Kasutajaagent:Keela: /cpresources/.

Keela: / tarnija / Keela: /.env.

standardite kehtestamine

Kasutaja saab määrata erinevatele robotitele konkreetsed lehed, kombineerides kahte eelmist elementi, selline see välja näeb. Allpool on näide kõigi otsingumootorite jaoks õigest robotite txt-st.

Standardite seadmine
Standardite seadmine

Jaotised "Admin" ja "Privaatne" on Google'ile ja Bingile nähtamatud, kuid Google näeb endiselt "salajast" kataloogi, samas kui Bing mitte. Tärniga kasutajaagendi abil saate määrata kõigile robotitele üldreeglid ja seejärel anda järgmistes jaotistes robotitele konkreetseid juhiseid. Ül altoodud teadmistega saab kasutaja kirjutada näite õigest Robots txt-ist kõigi otsingumootorite jaoks. Lihts alt käivitage oma lemmiktekstiredaktor ja öelge robotitele, et nad ei ole saidi teatud osadesse teretulnud.

Nõuanded serveri jõudluse parandamiseks

SublimeText onmitmekülgne tekstiredaktor ja paljude programmeerijate kuldstandard. Pealegi põhinevad tema programmeerimisnõuanded tõhusal kodeerimisel. kasutajad hindavad otseteede olemasolu programmis. Kui kasutaja soovib näha faili robots.txt näidet, peaks ta minema mis tahes saidile ja lisama lõppu "/robots.txt". Siin on osa failist robots.txt GiantBicycles.

Programm võimaldab luua lehti, mida kasutajad ei soovi otsingumootorites näidata. Ja sellel on ka mõned eksklusiivsed asjad, millest vähesed teavad. Näiteks kui fail robots.txt ütleb robotitele, kuhu mitte minna, siis saidiplaani fail teeb vastupidist ja aitab neil otsitavat leida, ja kuigi otsingumootorid ilmselt juba teavad, kus saidiplaan asub, ei jõua see teel.

Faile on kahte tüüpi: HTML-leht või XML-fail. HTML-leht on leht, mis näitab külastajatele veebisaidi kõiki saadaolevaid lehti. Oma failis robots.txml näeb see välja järgmine: Sitemap://www.makeuseof.com/sitemap_index.xml. Kui saiti otsingumootorid ei indekseeri, kuigi veebirobotid on sellel mitu korda roomanud, peate veenduma, et fail on olemas ja selle õigused on õigesti seadistatud.

Vaikimisi juhtub see kõigi SeoToasteri installidega, kuid vajadusel saate selle lähtestada järgmiselt: Fail robots.txt - 644. Olenev alt PHP serverist, kui see kasutaja jaoks ei tööta, siis see on soovitatav proovida järgmist: Fail robots.txt - 666.

Skannimise viivituse määramine

Möödaviigu viivituse direktiiv teavitab teatudotsingumootorid, kui sageli nad saavad saidi lehte indekseerida. Seda mõõdetakse sekundites, kuigi mõned otsingumootorid tõlgendavad seda veidi erinev alt. Mõned inimesed näevad roomamise viivitust 5, kui neil kästakse oodata viis sekundit pärast iga skannimist, et alustada järgmist.

Teised tõlgendavad seda juhisena skannida ainult üks leht iga viie sekundi järel. Robot ei saa serveri ribalaiuse säästmiseks kiiremini skannida. Kui server peab liiklusega ühtima, saab see määrata möödaviiguviivituse. Üldiselt ei pea kasutajad enamikul juhtudel selle pärast muretsema. Nii seadistatakse roomamise viivitus kaheksa sekundit – Roomamise viivitus: 8.

Kuid mitte kõik otsingumootorid ei järgi seda direktiivi, seega saate lehtede keelamisel määrata teatud otsingumootoritele erinevad roomamisviivitused. Kui kõik failis olevad juhised on seadistatud, saate selle saidile üles laadida. Esm alt veenduge, et see on lihtne tekstifail ja selle nimi on robots.txt ning selle leiate aadressilt yoursite.com/robots.txt.

Parim WordPressi robot

Parim WordPressi robot
Parim WordPressi robot

WordPressi saidil on mõned failid ja kataloogid, mis tuleb iga kord lukustada. Kataloogid, mida kasutajad peaksid keelama, on cgi-bin kataloog ja standardsed WP kataloogid. Mõned serverid ei võimalda juurdepääsu cgi-bin kataloogile, kuid kasutajad peavad enne Robots txt WordPress selle keelamiskäsku lisama

Standardsed WordPressi kataloogid,mis peaksid blokeerima wp-admin, wp-content, wp-includes. Need kataloogid ei sisalda algselt otsingumootoritele kasulikke andmeid, kuid on erand, st wp-content kataloogis on alamkataloog nimega uploads. See alamkataloog peab olema failis robot.txt lubatud, kuna see sisaldab kõike, mis laaditakse WP meediumi üleslaadimise funktsiooni abil. WordPress kasutab sisu struktureerimiseks silte või kategooriaid.

Kui kasutatakse kategooriaid, siis selleks, et teha Wordpressi jaoks õige Robots txt, nagu programmi tootja on määranud, on vaja sildi arhiivid otsingust blokeerida. Esiteks kontrollivad nad andmebaasi, minnes paneelile "Haldus"> "Seaded"> "Püsilink".

Vaikimisi on aluseks silt, kui väli on tühi: Disallow: / tag /. Kui kasutatakse kategooriat, peate failis robot.txt selle kategooria keelama: Disallow: /category/. Vaikimisi on aluseks silt, kui väli on tühi: Disallow: / tag /. Kui kasutatakse kategooriat, peate selle failis robot.txt keelama: Disallow: / category /.

Failid, mida kasutatakse peamiselt sisu kuvamiseks, blokeerib need Wordpressi jaoks õige Robotsi txt-fail:

Robotid txt WordPressi jaoks
Robotid txt WordPressi jaoks

Joomla põhiseadistus

Kui kasutaja on Joomla installinud, peate nägema õigeid Joomla Robotsi txt-sätteid globaalses konfiguratsioonis, mis asub juhtpaneelil. Mõned siinsed seaded on SEO jaoks väga olulised. Esm alt leidke saidi nimi ja veenduge selleskasutatakse saidi lühinime. Seejärel leiavad nad samast ekraanist parem alt seadete rühma, mida nimetatakse SEO säteteks. See, mida tuleb kindlasti muuta, on teine: kasutage ümberkirjutamise URL-i.

See kõlab keeruliselt, kuid põhimõtteliselt aitab see Joomlal luua puhtamaid URL-e. Kõige märgatavam, kui eemaldate URL-idest rea index.php. Kui muudate seda hiljem, muutuvad URL-id ja see ei meeldi Google'ile. Selle sätte muutmisel tuleb aga Joomla jaoks õige roboti txt loomiseks teha mitu sammu korraga:

  1. Leidke Joomla juurkaustast fail htaccess.txt.
  2. Märkige see kui.htaccess (laiendita).
  3. Kaasake saidi nimi lehtede pealkirjadesse.
  4. Leidke metaandmete seaded globaalse konfiguratsiooniekraani allservas.

Robot pilves MODX

Robot MODX pilves
Robot MODX pilves

Varem andis MODX Cloud kasutajatele võimaluse juhtida faili robots.txt esitamise lubamist armatuurlaual oleva lüliti alusel. Kuigi see oli kasulik, oli võimalik juhuslikult lubada indekseerimist lavastus-/arendussaitidel, lülitades armatuurlaual suvandi sisse. Samamoodi oli lihtne tootmissaidil indekseerimist keelata.

Täna eeldab teenus failide robots.txt olemasolu failisüsteemis järgmise erandiga: iga domeen, mis lõpeb modxcloud.com-iga, toimib kõigi kasutajaagentide jaoks käsuna Disallow: /direktiiv, olenemata nende olemasolust. või faili puudumine. Tootmissaidid, mis saavad tõelist külastajaliiklust, peavad kasutama oma domeeni, kui kasutaja soovib oma saiti indekseerida.

Mõned organisatsioonid kasutavad modx-i jaoks õiget robotite txt-faili, et käivitada kontekstide abil mitu veebisaiti ühest installist. Seda võiks kasutada avaliku turundussaidi puhul koos sihtlehe mikrosaitidega ja võib-olla ka mitteavaliku sisevõrguga.

Traditsiooniliselt on seda olnud keeruline teha mitme kasutajaga installide puhul, kuna neil on sama võrgujuur. MODX Cloudiga on see lihtne. Lihts alt laadige veebisaidile robots-intranet.example.com.txt üles lisafail järgmise sisuga ja see blokeerib indekseerimise hästi töötavate robotitega ja kõik muud hostinimed naasevad standardfailidesse, välja arvatud juhul, kui on muid konkreetseid nimesõlmi.

Robots.txt on oluline fail, mis aitab kasutajal linkida saidile Google'is, suuremates otsingumootorites ja muudel veebisaitidel. Veebiserveri juurtes asuv fail juhendab veebiroboteid saidil roomama, määrama, milliseid kaustu see peaks indekseerima või mitte, kasutades juhiste komplekti, mida nimetatakse robotite välistamise protokolliks. Õige Robots txt näide kõigi otsingumootorite jaoks obots.txt on SeoToasteriga eriti lihtne teha. Selle jaoks on juhtpaneelil loodud spetsiaalne menüü, nii et bot ei pea juurdepääsu saamiseks kunagi üle pingutama.

Soovitan: