SEO problemi: Crawl Budget i indeksiranje velikih sajtova - Brisbane Digital

U proteklom periodu, pisali smo o indeksiranju sajtova i promenama koje Google uvodi u vezi sa indeksiranjem prvo mobilnih pa tek onda desktop verzija sajta. Ovaj tekst bi se mogao smatrati dodatkom tog članka koji govori o pojmu “Crawl Budget”. Kako bi sve bilo jasnije, za početak ćemo objasniti kako indeksiranje uopšte funkcioniše.

Kako Google indeksira stranice

Google-ov program koji se naziva Googlebot, pretražuje (možemo se izraziti i češlja) redom stranice koje ima u svojoj listi sajtova koje treba pregledati. Svaki link na koji naiđe on stavlja na tu istu listu, te svi ti linkovi na koje je Googlebot naišao, takođe dolaze na red za češljanje.
Ovaj proces se naziva Crawling (u bukvalnom prevodu gmizanje, jer se Googlebot još naziva i spider, odnosno pauk). Naravno, Google ovo ne radi jednu po jednu stranicu, već se sve odvija u velikom broju paralelnih Googlebot konekcija.
Sve informacije koje Googlebot tom prilikom pokupi sa jedne stranice, on beleži u svoju bazu podataka koja se naziva index, i koja se koristi kako bi Google mogao da prikaže rezultate za željenu pretragu.
Kako brže i lakše indeksirati novu stranicu, kao i proveriti da li je neka stranica indeksirana, možete pročitati u ovom članku.

Crawl Budget

Crawl budget određuje koliko stranica Google može i želi da pregleda na vašem sajtu u jednom “naletu” odnosno tokom jednog crawl-a (češljanja). Crawl budget je drugačiji za svaki sajt i on zavisi od Crawl rate limit-a i Crawl demand-a.
Crawl rate limit (granična stopa češljanja) predstavlja broj simultanih paralelnih konekcija koje Googlebot koristi dok češlja vaš sajt. Google ne želi da optereti vaš server, ali ni da uzaludno troši svoje resurse i Crawl rate limit služzi upravo u tu svrhu. Crawl rate limit zavisi od limita postavljenog u Search Console-u i brzine vašeg servera.
Crawl demand (potraznja za češljanjem) sa druge strane zavisi od dva faktora: popularnosti sajta i “bajatosti”. Hajde da to objasnimo ovako, sa jedne strane imate sajt blic.rs, koji uvek ima nove stranice i nove informacije i veoma je popularan. Takođe postoji sigurno i neki novi domaći news portal, sa novim informacijama, ali manjom popularnosti. Svakako da će Blic-ov sajt biti češće indeksiran od ovog manje popularnog portala, pritom imajući i veći potencijalni crawl budget.
Sa druge strane, uzmimo recimo jednu prosečnu biznis prezentaciju zubarske ordinacije, koja je i danas ista kakva je bila i pre 2 godine i naspram nje sajt koji bi prikazivao rezultate i trenutnu tabelu Eurolige u kosarci. Sa jedne strane imamo “bajat” sajt zubarske ordinacije i ažuran sajt Eurolige (sa novim rezultatima i promenama u tabeli jednom do dvaput nedeljno), koji Google-u šalje poruku da treba što češće biti ažuriran.

Zašto je crawl budget bitan?

Crawl budget nije naročito bitna stvar za većinu sajtova. On nije ranking faktor, te neće uticati na rangiranje ključnih reči. Takodje, većina sajtova nikad neće potrošiti svoj crawl budget. Istina je da Crawl budget moze početi da vas zanima tek kada vaš sajt bude imao približno šestocifren broj indeksiranih stranica pa naviše.

Šta ukoliko imate sajt sa milionima indeksiranih stranica?

Iako nekome može zvučati čudno da neki sajt ima milion indeksiranih stranica, to je sasvim uobičajena stvar za vece online shopove, novinske portale i slicne sajtove. Primera radi, gore pomenuti Blic ima 3,2 miliona indeksiranih stranica, Kupujem Prodajem ima 3,9 miliona dok recimo eBay ima 270 miliona a Airbnb ima 11,6 miliona.
Svi ovi sajtovi bi trebali voditi računa kako da svoj crawl budget iskoriste na najbolji način. To što neki sajt ima gomilu indeksiranih stranica ne mora da znači i da ima problem ove vrste. Možda Airbnb ima 11 miliona različitih smestajnih jedinica, i te stranice su i indeksirane. Problem se najčešće uočava kada vidite sajt koji ima odredjeni broj stranica a istovremeno ima višestruko uvećan broj indeksiranih stranica, što je slučaj sa skoro svim većim domaćim i stranim online prodavnicama.
Osnovni problem je što se kod ovakvih sajtova crawl budget umesto na korisne stranice može potrošiti na češljanje stranica koje uopšte ne želimo da budu indeksirane.Te stranice su, pogotovo kod ovakvih sajtova, na prvom mestu stranice sa dupliciranim sadržajem, ali i Soft 404 stranice, hakirane stranice, stranice nastale raznim filtriranjima i slično.

Kako optimizovati crawl budget?

Ono što želite u ovakvim situacijama jeste da Google ne češlja ove neželjene stranice i da svoje resurse iskoristi na češljanje korisnih strana, tj onih koje želite da budu indeksirane. Iako želite da određene stranice ne budu indeksirane, dodavanje noindex ili canonical taga neće biti dovoljno, jer ce Googlebot svejedno češljati te stranice.
Ono što se može uraditi u ovakvim slučajevima jeste da sve linkove unutar svog sajta koji linkuju ka ovakvim stranicama učinite “nofollow”. Često će uklanjanje određene navigacije ili filtera na sajtu biti preporuka ili čak i neophodna stvar, a kao potencijalno rešenje i sve urlove ovih neželjenih stranica mogli biste uneti u robots.txt fajl. Svakako najteži zadatak tom prilikom biće vam identifikacija stranica koje ne želite da budu crawl-ovane. I ne zaboravite da brzina servera, ali i brzina očitavanja stranica utiče na crawl budget. Brzina očitavanja stranica je pritom i faktor za rangiranje na Google-u, pa o tome posebno povedite računa.