blokowanie w robots.txt z google dla webmasterów

Plik robots.txt ogranicza dostęp do Twojej witryny robotom indeksującym internet na potrzeby wyszukiwarek. Przed pobraniem strony witryny roboty sprawdzają, czy w witrynie jest plik robots.txt i czy blokuje on dostęp do niektórych stron. (Wszystkie uznane roboty będą przestrzegać instrukcji zawartych w pliku robots.txt, jednak niektóre roboty mogą interpretować je nieco inaczej. Nie można narzucić bezwarunkowego przestrzegania zapisów pliku robots.txt, w związku z czym niektórzy spamerzy i inni oszuści mogą go zignorować. Z tego powodu zalecamy używanie hasła do ochrony poufnych informacji).

Aby zobaczyć zablokowane URL-e, których robot Google nie mógł zindeksować, otwórz stronę Zablokowane URL-e w sekcji Kondycja w Narzędziach dla webmasterów.

Plik robots.txt jest potrzebny tylko w przypadku, gdy witryna zawiera treść, której wyszukiwarki nie mają indeksować. Jeśli wyszukiwarki mają indeksować całą witrynę, plik robots.txt jest całkowicie zbędny (nawet pusty).

Google nie będzie pobierać ani indeksować zawartości stron zablokowanych w pliku robots.txt, ale może indeksować te URL-e, jeśli zostaną znalezione na innych stronach w sieci. W związku z tym URL takiej strony oraz prawdopodobnie również inne powszechnie dostępne informacje, np. teksty kotwicy w linkach do witryny lub tytuł z katalogu Open Directory Project (www.dmoz.org), mogą zostać wyświetlone w wynikach wyszukiwania Google.

Aby użyć pliku robots.txt, musisz mieć dostęp do katalogu głównego swojej domeny (w razie wątpliwości skontaktuj się w tej sprawie z firmą hostingową). W przypadku braku dostępu do katalogu głównego domeny można ograniczyć dostęp przy użyciu metatagu robots.

Aby całkowicie uniemożliwić dodanie treści strony do indeksu internetowego Google, nawet jeśli prowadzą do niej linki z innych witryn, użyj metatagu noindex lub nagłówka x-robots-tag. Przy pobieraniu takiej strony przez Googlebota metatag noindex będzie zapobiegać dodaniu jej do indeksu internetowego. Nagłówek HTTP x-robots-tag jest szczególnie przydatny do kontrolowania indeksowania plików w formacie innym niż HTML, takich jak pliki graficzne lub inne dokumenty.

Tworzenie pliku robots.txt

W najprostszym pliku robots.txt są stosowane dwie reguły:

  • User-agent: robot, którego dotyczy dana reguła
  • Disallow: URL, który ma być blokowany

Te dwa wiersze stanowią jeden wpis w pliku. Plik może zawierać dowolną liczbę wpisów. W jednym wpisie można podać wiele wierszy Disallow i wiele wierszy User-agent.

Każda sekcja w pliku robots.txt jest oddzielna i nie jest kontynuacją poprzednich sekcji. Na przykład:

User-agent: *
Disallow: /folder1/

User-Agent: Googlebot
Disallow: /folder2/

W tym przykładzie dla Googlebota blokowane są tylko URL-e zgodne z kryterium /folder2/.

Aplikacje user-agent i roboty

Aplikacja user-agent to określenie robota danej wyszukiwarki. Baza danych robotów sieciowych zawiera nazwy wielu popularnych robotów. Aby zastosować wpis do konkretnego robota, podaj jego nazwę. Aby zastosować go do wszystkich robotów, zamiast nazwy wpisz gwiazdkę. Wpis dotyczący wszystkich robotów wygląda następująco:

User-agent: *

Google korzysta z kilku różnych robotów (aplikacji user-agent). Robot używany na potrzeby naszej wyszukiwarki to Googlebot. Inne nasze roboty, takie jak Googlebot-Mobile i Googlebot-Image, stosują się do reguł dotyczących Googlebota, ale można również utworzyć dla nich osobne reguły.

Blokowanie aplikacji user-agent

Wiersz Disallow zawiera listę stron, które mają być blokowane. Można podać konkretny URL lub wzorzec. Wpis powinien zaczynać się od ukośnika (/).

  • Aby zablokować całą witrynę, użyj ukośnika.
    Disallow: /
  • Aby zablokować katalog i całą jego zawartość, po nazwie katalogu wpisz ukośnik.
    Disallow: /katalog-smieci/
  • Aby zablokować stronę, podaj jej nazwę.
    Disallow: /plik_prywatny.html
  • Aby usunąć konkretny obraz z wyszukiwarki grafiki Google, dodaj następujące wpisy:
    User-agent: Googlebot-Image
    Disallow: /grafiki/psy.jpg
  • Aby usunąć z wyszukiwarki grafiki Google wszystkie obrazy pochodzące z Twojej witryny:
    User-agent: Googlebot-Image
    Disallow: /
  • Aby zablokować pliki określonego typu (np. GIF), użyj następującego wpisu:
    User-agent: Googlebot
    Disallow: /*.gif$
  • Aby zapobiec indeksowaniu stron witryny, a mimo to nadal wyświetlać na nich reklamy AdSense, należy odmówić dostępu wszystkim robotom oprócz robota Mediapartners-Google. Zapobiegnie to wyświetlaniu stron w wynikach wyszukiwania, ale umożliwi robotowi Mediapartners-Google analizowanie stron w celu określenia wyświetlanych na nich reklam. Robot Mediapartners-Google nie udostępnia stron innym aplikacjom user-agent firmy Google. Na przykład:
    User-agent: *
    Disallow: /
    
    User-agent: Mediapartners-Google
    Allow: /

W instrukcjach rozróżniana jest wielkość liter. Na przykład instrukcja Disallow: /plik_smieci.asp spowoduje blokowanie adresu http://www.example.com/plik_smieci.asp, ale nie http://www.example.com/Plik_smieci.asp. Googlebot ignoruje spacje (w szczególności puste wiersze) i nieznane polecenia w pliku robots.txt.

Googlebot obsługuje przesyłanie plików map witryn przez plik robots.txt file.

Dopasowywanie do wzorca

Googlebot obsługuje niektóre wzorce dopasowania, ale nie wszystkie wyszukiwarki mają taką możliwość.

  • Aby dopasować ciąg znaków, użyj znaku gwiazdki (*). Aby na przykład zablokować dostęp do wszystkich podkatalogów, których nazwa zaczyna się od ciągu „private”:
    User-agent: Googlebot
    Disallow: /private*/
  • Aby zablokować dostęp do wszystkich URL-i zawierających znak zapytania (?) (a dokładniej wszelkich URL-i o strukturze: nazwa domeny, dowolny ciąg znaków, znak zapytania, następny dowolny ciąg znaków):
    User-agent: Googlebot
    Disallow: /*?
  • Aby określić dopasowanie końca URL-a, użyj znaku dolara ($). Aby na przykład zablokować wszystkie URL-e kończące się ciągiem „.xls”:
    User-agent: Googlebot 
    Disallow: /*.xls$

    Wzorców dopasowania można używać również w połączeniu z instrukcją Allow. Jeśli na przykład znak „?” wskazuje identyfikator sesji, można wykluczyć wszystkie zawierające go URL-e, aby Googlebot nie indeksował zduplikowanych stron. URL-e kończące się znakiem „?” mogą jednak stanowić wersje strony, które mają być uwzględniane. W takiej sytuacji w pliku robots.txt umieść następujący wpis:

    User-agent: *
    Allow: /*?$
    Disallow: /*?

    Instrukcja Disallow: / *? powoduje blokowanie wszelkich URL-i zawierających znak „?” (dokładniej: powoduje blokowanie wszelkich URL-i zaczynających się od nazwy domeny, po której następuje dowolny ciąg, znak zapytania i kolejny dowolny ciąg).

    Instrukcja Allow: /*?$ zezwala na dostęp do każdego URL-a kończącego się znakiem „?” (dokładniej: do każdego URL-a zaczynającego się od nazwy domeny, po której następuje dowolny ciąg i znak zapytania, bez żadnych znaków po nim).

Zapisz plik robots.txt, pobierając go lub kopiując treść do pliku tekstowego i zapisując pod nazwą robots.txt. Zapisz plik w katalogu najwyższego poziomu witryny. Plik robots.txt musi znajdować się w katalogu głównym domeny i mieć nazwę „robots.txt”. Plik robots.txt znajdujący się w podkatalogu jest ignorowany, ponieważ roboty szukają go jedynie w katalogu głównym domeny. Na przykład http://www.example.com/robots.txt jest prawidłową lokalizacją, natomiast http://www.example.com/mojawitryna/robots.txt nie jest.

Testowanie pliku robots.txt

Narzędzie Test pliku robots.txt umożliwia sprawdzenie, czy plik robots.txt przypadkowo nie blokuje Googlebotowi dostępu do pliku lub katalogu w witrynie i czy nie zezwala mu na indeksowanie plików, które nie powinny być dostępne w sieci. Po wprowadzeniu proponowanej treści pliku robots.txt narzędzie odczytuje go tak samo jak Googlebot oraz wyświetla listę skutków działania pliku i wszelkich wykrytych problemów.

Testowanie pliku robots.txt witryny:

  1. Na stronie głównej Narzędzi dla webmasterów kliknij wybraną witrynę.
  2. W sekcji Kondycja kliknij Zablokowane URL-e.
  3. Kliknij kartę Test pliku robots.txt, jeśli nie jest ona wybrana.
  4. Skopiuj treść pliku robots.txt i wklej ją w pierwszym polu.
  5. W polu Adresy URL wpisz witrynę, która ma zostać przetestowana.
  6. Na liście Aplikacje user-agent wybierz żądane aplikacje user-agent.

Zmiany wprowadzane w tym narzędziu nie są zapisywane. Aby zapisać ewentualne zmiany, musisz skopiować treść i wkleić ją do pliku robots.txt.

Narzędzie podaje wyniki dotyczące jedynie aplikacji user-agent Google (takich jak Googlebot). Inne roboty mogą inaczej interpretować plik robots.txt. Na przykład Googlebot obsługuje rozszerzoną definicję standardowego protokołu pliku robots.txt. Rozpoznaje instrukcję Allow: oraz niektóre wzorce dopasowania. Jeśli narzędzie wyświetla wiersze zawierające te rozszerzenia jako zrozumiałe, dotyczy to tylko Googlebota, a niekoniecznie innych robotów indeksujących witryny.

Advertisements

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s