Proč web může být pro Google jiný než pro vás
Na obrazovce vidíte hotový web, ale Google většinou nepracuje s tím, co vidí člověk v prohlížeči. Nejprve si stáhne HTML, případně čeká na vykreslení JavaScriptem, a až podle toho rozhodne, zda stránku zařadí do indexu. Pokud je obsah dostupný až po interakci, blokovaný robots.txt, schovaný za přihlášením nebo generovaný jen na straně klienta bez správného renderingu, vyhledávač může vidět prázdnou nebo neúplnou stránku.
To je důvod, proč se v technickém SEO řeší nejen obsah a odkazy, ale i to, jaký zdrojový kód dostane crawler, jak rychle se načte, zda neobsahuje noindex a jestli je v něm vše podstatné dostupné bez kliknutí. U moderních webů na Next.js, Reactu nebo jiných SPA aplikacích je tento rozdíl ještě výraznější.
První kontrola: je stránka vůbec indexovatelná?
Indexovatelnost není totéž co dostupnost webu. Stránka může fungovat pro uživatele, ale přesto být pro Google zakázaná nebo nečitelná. Základní kontrola by měla proběhnout ve čtyřech krocích:
- robots.txt – nezakazuje crawl důležitých adresářů nebo parametrů?
- meta robots / X-Robots-Tag – není na stránce nebo v hlavičce noindex, nofollow nebo none?
- HTTP status – vrací stránka 200, nebo chybově 3xx/4xx/5xx?
- kanonikalizace – neukazuje canonical na jinou URL, která je sama neindexovatelná?
V praxi se často stává, že vývojář nasadí staging šablonu do produkce a zapomene odstranit noindex. Nebo CMS generuje canonical na parametrovou variantu, zatímco hlavní URL je považována za duplikát. V Google Search Console pak uvidíte typické hlášky jako Vyloučeno tagem noindex, Stránka se alternativní kanonickou adresou nebo Procházeno – aktuálně neindexováno.
Jak zjistit, co Google skutečně vidí
Nejrychlejší ověření poskytne Google Search Console v nástroji Kontrola URL. Ten ukáže, zda je stránka indexovaná, kdy byla naposledy procházená a hlavně jak Google stránku renderoval. Důležité je porovnat:
- „Prohlížená stránka“ včetně HTML, které Google získal,
- „Vykreslená stránka“, tedy po zpracování JavaScriptu,
- se zdrojovým kódem, který vidíte v prohlížeči vy.
Pokud se obsah zobrazuje až po načtení skriptů, Google ho nemusí vyhodnotit správně, zejména když je renderování pomalé nebo se nepodaří načíst externí API. U důležitých stránek proto doporučuji testovat i pomocí Rich Results Test, URL Inspection a nástroje View Source v prohlížeči, případně curl -A "Googlebot" na serveru. Praktický rozdíl mezi HTML odpovědí pro běžného uživatele a pro crawler je často odhalen až v logách serveru.
Velmi užitečné jsou také serverové logy. V nich uvidíte, zda Googlebot stránku skutečně navštívil, jaký dostal status kód, jak dlouho čekal na odpověď a zda neprocházel jen část webu. Z logů často vyplave na povrch, že Google tráví crawl budget na zbytečných URL s parametry, zatímco důležité landing pages se procházejí málo.
Nejčastější technické chyby, kvůli kterým obsah mizí z indexu
V praxi se opakují pořád stejné problémy. Některé jsou banální, jiné vznikají až při složitějším vývoji a správě webu:
- JavaScript-only obsah – text, odkazy nebo produkty se načtou až po renderu a crawler je nevidí.
- Chybný canonical – hlavní stránka odkazuje sama na sebe s parametry nebo na neexistující variantu.
- Blokace v robots.txt – někdy omylem blokuje CSS/JS, takže Google nevidí plnohodnotný layout.
- Soft 404 – stránka vrací 200, ale obsahuje text „nenalezeno“ nebo minimum obsahu.
- Duplicitní URL – http/https, www/non-www, trailing slash, parametry, UTM a filtrace e-shopu.
- Pomalé načítání – Google renderuje omezeně, a pokud je stránka příliš těžká, část obsahu přeskočí.
U e-shopů bývá problém s faceted navigation: filtry vytvářejí tisíce kombinací URL, které nemají přidanou hodnotu. Bez správné strategie indexace a canonicalizace může Google indexovat jen zlomek důležitých kategorií, nebo naopak zaplnit index balastem. U obsahových webů bývá častý problém v tom, že nadpisy a texty jsou vložené do bloků načítaných přes AJAX, které nejsou v HTML přítomné při prvním stažení.
Co sledovat v datech: Search Console, crawl a logy
Indexovatelnost není jednorázová kontrola, ale průběžný monitoring. V Search Console sledujte hlavně report Stránky a změny v počtu indexovaných URL. Pokud počet vyloučených stránek roste, hledejte vzorec: nový typ šablony, migrace, změna CMS nebo nasazení JS frameworku. Užitečné jsou také exporty do CSV a porovnání po týdnech.
Pro větší weby doporučuji kombinovat:
- Screaming Frog nebo Sitebulb pro crawl webu a kontrolu statusů, canonicalů, meta robots i interních odkazů,
- Google Search Console pro indexační stav a chyby,
- serverové logy pro reálné chování Googlebota,
- PageSpeed Insights / Lighthouse pro dopad rychlosti a renderingu.
Praktický postup: projděte 20–50 nejdůležitějších URL, zkontrolujte jejich HTML, status kód, canonical, meta robots a porovnejte to s tím, co vidí Google v Search Console. Pokud objevíte nesoulad, řešte nejdřív renderování a indexační direktivy, až potom obsahové úpravy. U technického SEO je pořadí zásahů klíčové: skvělý text nepomůže, když se k němu crawler nedostane.
Jak nastavit web, aby byl pro Google čitelný i v roce 2026
Moderní web by měl být postaven tak, aby základní obsah, interní odkazy, nadpisy a důležité metadata byly dostupné už v prvním HTML. Nejbezpečnější je server-side rendering nebo pre-rendering u klíčových stránek. U Next.js nebo podobných frameworků se vyplatí hlídat, co je generované na serveru a co až v klientovi. Pokud je obsah kritický pro SEO, neměl by být závislý na okamžitém běhu JavaScriptu.
Další praktické kroky:
- u každé šablony definujte jasnou logiku pro canonical, noindex a indexační pravidla,
- zajistěte, aby CSS a JS potřebné pro render nebyly blokované v robots.txt,
- omezte parametrové URL, které nemají SEO hodnotu,
- používejte strukturovaná data tam, kde dávají smysl – článek, produkt, FAQ, breadcrumbs,
- testujte nové šablony ještě před nasazením na produkci pomocí stagingu a crawl testu.
U mezinárodních webů přidejte i kontrolu hreflang, protože špatně nastavené jazykové verze často způsobí, že Google indexuje jinou mutaci, než čekáte. A pokud web běží na WordPressu, pravidelně kontrolujte pluginy pro SEO a cache – právě tam se často objeví konflikt mezi optimalizací výkonu a indexovatelností, například agresivní minifikace nebo lazy-load, který skrývá důležitý obsah.
Nejspolehlivější strategie je jednoduchá: to, co má rankovat, musí být pro Google dostupné bez překážek už v prvním průchodu. Jakmile tohle platí, technické SEO přestává být hasičský zásah a stává se stabilním základem pro růst organické návštěvnosti.
