1. Herzlich willkommen bei WPDE.org, dem grössten und ältesten deutschsprachigen Community-Forum rund um das Thema WordPress. Du musst angemeldet oder registriert sein, um Beiträge verfassen zu können.
    Information ausblenden

Offizielle robots.txt-Empfehlung von WP

Dieses Thema im Forum "Konfiguration" wurde erstellt von Autor33, 24. Juli 2014.

  1. Autor33

    Autor33 Well-Known Member

    Registriert seit:
    29. Mai 2010
    Beiträge:
    273
    Zustimmungen:
    0
    Hallo,
    auf http://codex.wordpress.org/Search_Engine_Optimization_for_WordPress#Robots.txt_Optimization
    empfiehlt WP folgenden Code in der robots.txt:
    Code:
    Entschuldige, aber du musst dich registrieren oder anmelden um den Inhalt sehen zu können!
    Dass es das Ranking verbessert, wie WP dort behauptet, bezweifle ich stark, aber macht ihr das der Sicherheit und Vermeidung von duplicate content wegen?

    Angenommen, ich würde als einzige Ergänzung zur obigen Empfehlung jpg, png und gif im Ordner Uploads aussperren wollen, weil ich keine Bildersuche bei allen Sumas brauche, andere Medien (ebenfalls in "uploads") wie z.B. pdf aber gefunden werden sollen. Wäre dann die folgende Ergänzung ganz unten in der robots.txt richtig:
    Disallow: /*.jpg$
    Disallow: /*.png$
    Disallow: /*.gif$

    oder gleichwertig:
    Disallow: /uploads/*.jpg$
    Disallow: /uploads /*.png$
    Disallow: /uploads/*.gif$
     
  2. Autor33

    Autor33 Well-Known Member

    Registriert seit:
    29. Mai 2010
    Beiträge:
    273
    Zustimmungen:
    0
    Keiner?

    Beim Googeln habe ich festgestellt, dass viele zusätzlich z.B. /author/ und die index.php ausschließen. Macht das Sinn?
     
  3. Melewo

    Melewo Well-Known Member

    Registriert seit:
    8. Juli 2013
    Beiträge:
    3.097
    Zustimmungen:
    0
    Dann solltest Du die Sumas gezielt ansprechen, denn nur bei den großen Sumas kannst Du Dir sicher sein, dass diese eine robots.txt zur Kenntnis nehmen.

    Bevor Du eine Liste übernimmst, überlege, welche Seiten befinden sich in einem Verzeichnis wie

    Disallow: /wp-includes/

    die von einer Suchmaschine gecrawlt und in den Index übernommen werden könnten. Und bedenke, eine robots.txt ist nichts weiter als eine Empfehlung, die kein Bot lesen muss. Lediglich die großen halten sich daran, jedoch auch nur dann, wenn die Seiten oder Dateien nicht von extern verlinkt werden.
    Wenn eine Seite von extern verlinkt wird, so wird eine Suma diesen Link folgen und diese Seite indizieren. Erst bei einem späteren Besuch wird die robots.txt von der Suma zur Kenntnis genommen, in welcher eben diese Seite möglicherweise von der Indizierung ausgeschlossen wurde. Folge, die URL von der Seite erscheint im Index, jedoch ohne Description. Statt der Description erscheint dann im Index von Google zum Beispiel der Hinweis:

    Daraus ergibt sich, was Du wirklich ausschließen möchtest, schließe es bei Seiten über meta name="robots" aus, denn daran kommt eine Suma auch bei einer externen Verlinkung nicht vorbei. So sollte es zumindest sein, nur so richtig sicher scheint das zuweilen ebenfalls nicht zu sein.
     
    #3 Melewo, 25. Juli 2014
    Zuletzt bearbeitet: 25. Juli 2014
  4. Autor33

    Autor33 Well-Known Member

    Registriert seit:
    29. Mai 2010
    Beiträge:
    273
    Zustimmungen:
    0
    Stimmt, sicher ist man nur mit dem Meta-Tag "noindex", z.B. wegen duplicate content. Hat außerdem den Vorteil, dass die betreff. Seiten Pagerank denoch weitergeben. Und wenn es um wichtige Sicherheitsfragen geht, sollte man (zusätzlich oder stattdessen) in vielen Fällen die .htaccess nutzen.

    Die Standard-Empfehlung von WP dürfte schon passen für mich, abgesehen von der Bildersache. Außergewöhnliche technische Features, z.B. per include, haben meine kleinen Sites nicht. Ganz normale Informations- und "Firmen"-Sites, später kommt mal ein Onsite-Blog als Subdomain dazu.

    Was mich etwas verwirrt, ist allerdings, dass viele Webmaster zusätzlich zu den von WP selbst empfohlenen Ausschlüssen noch weitere Verzeichnisse und Dateien ausschließen. Es fällt mir schwer zu beurteilen, ob ich das ebenfalls ergänzen soll zu den von WP
    gemachten zwölf Anweisungen. Viele ergänzen noch einiges von den folgenden Sachen:

    Disallow: xmlrpc.php
    Disallow: index.php
    Disallow: wp-register.php
    Disallow: /feed/
    Disallow: /author/
    Disallow: /archives/
    Diasllow: /20*

    Um das einschätzen zu können, fehlt mir der technische Background und selbst mit Google finde ich dazu nichts raus, ausgenommen die Sache mit der seit WP 3.5 stets aktivierten und für Angriffe anfälligen xmlrpc-Schnittstelle.
     
  5. Melewo

    Melewo Well-Known Member

    Registriert seit:
    8. Juli 2013
    Beiträge:
    3.097
    Zustimmungen:
    0
    Na lässt sich zum Beispiel die index.php aufrufen?
    Bei mir nicht und was sich nicht mit googlebot aufrufen lässt, braucht auch nicht für googlebot ausgeschlossen werden.
     
  6. Autor33

    Autor33 Well-Known Member

    Registriert seit:
    29. Mai 2010
    Beiträge:
    273
    Zustimmungen:
    0
    Da es sich um keinen Blog handelt, habe ich in den Lese-Settings eine statische Front Page gewählt.
    domain.de/index.php leitet um auf domain.de, ohne dass ich manuell einen redirect angelegt hätte in der htaccess.

    Technisch kommt WP offenbar nicht ohne /index.php aus. Es gibt aber keine für den Besucher relevante Seite mit dieser URL.
     
  7. Melewo

    Melewo Well-Known Member

    Registriert seit:
    8. Juli 2013
    Beiträge:
    3.097
    Zustimmungen:
    0
    War nur ein Beispiel, gehe einfach durch, was sich im Browser aufrufen lässt und was Du davon für Suchmaschinen ausschließen möchtest und nur die notierst Du dann mit Disallow in der robots.txt.

    Wie was geschrieben wird, dafür findest Du viele Beispiele unter:

    https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=de-DE

    Die Schreibweise mit einem Sternchen als Platzhalter /*.jpg$ sollte jedenfalls richtig sein.
     
  8. Autor33

    Autor33 Well-Known Member

    Registriert seit:
    29. Mai 2010
    Beiträge:
    273
    Zustimmungen:
    0
    O.K., danke.
     
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden