1. Herzlich willkommen bei WPDE.org, dem grössten und ältesten deutschsprachigen Community-Forum rund um das Thema WordPress. Du musst angemeldet oder registriert sein, um Beiträge verfassen zu können.
    Information ausblenden

Robots.txt korrekter Aufbau

Dieses Thema im Forum "Allgemeines" wurde erstellt von HelpMe_wp, 27. Dezember 2020.

  1. HelpMe_wp

    HelpMe_wp Well-Known Member

    Registriert seit:
    7. Dezember 2018
    Beiträge:
    186
    Zustimmungen:
    0
    Hallo Zusammen
    Ich habe eine robots.txt Datei erstellt mit folgendem Inhalt.
    ---
    Sitemap: http://www.http://celeritas.li/sitemap.xml
    Sitemap: https://www.http://celeritas.li/sitemap.xml
    Sitemap: http://http://celeritas.li/sitemap.xml
    Sitemap: https://http://celeritas.li/sitemap.xml

    User-agent: *
    Allow: robots.txt
    Allow: sitemap.xml
    Allow: index.php
    Allow: /wp/
    Disallow *
    Disallow /*
    ---
    Wenn ich meine sitemap.xml bei Google Search Console eintrage, kommt als Status zurück "Konnte nicht abgerufen werden.
    Gehe ich die URL der sitemap manuell ein im Browser, kann ich die sitemap anschauen.

    Was habe ich falsch gemacht?
    Mein Ziel ist es, dass nur die Dateien "robots.txt", "sitempa.xml", "index.php" aus dem Root Ordner und von den Ordnern "wp" gelesen werden können.
    Alle anderen Dateien/Ordner soll er nicht lesen können.
     
  2. r23

    r23 Well-Known Member

    Registriert seit:
    9. Dezember 2006
    Beiträge:
    7.317
    Zustimmungen:
    582
    Verwende einen richtigen Browser. Du hast nicht eine wirkliche URL hier veröffentlicht

    Sitemap: http://www.http://
    Sitemap: https://www.http://
    Sitemap: http://http://
    Sitemap: https://http://

    ^- was soll das doppelte http bedeuten?

    Aufbau einer gültigen URL kannst du bei Wikipeadi nachlesen

    https://de.wikipedia.org/wiki/Uniform_Resource_Locator
     
  3. HelpMe_wp

    HelpMe_wp Well-Known Member

    Registriert seit:
    7. Dezember 2018
    Beiträge:
    186
    Zustimmungen:
    0
    Das doppelte http:// ist mir beim kopieren reingerutscht.

    Ist sonst mein Aufbau des robots.txt ok
    ---
    User-agent: *
    Allow: robots.txt
    Allow: sitemap.xml
    Allow: index.php
    Allow: /wp/
    Disallow *
    Disallow /*
    ----
     
  4. r23

    r23 Well-Known Member

    Registriert seit:
    9. Dezember 2006
    Beiträge:
    7.317
    Zustimmungen:
    582
    nein... eigentlich nicht.

    Bei der Seitemap gibt man die richtige URL an und keinen Auszug.

    Sitemap: https://example.de/sitemap.xml

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /trackback
    Disallow: /wp-register.php
    Disallow: /wp-login.php
    Disallow: /wp-trackback.php


    Danach verbietet man einigen Bots den Zugriff
    User-agent: SurveyBot
    Disallow: /

    usw..

    Danach erlaubt man explizit die Medien.

    Allow: /wp-content/uploads

    ---
    beide Anweisungen sind in der robots sinnfrei.

    den Rest musst du dir selber suchen - ich bin für ein offenes web.

    https://developers.google.com/search/reference/robots_txt?hl=de
     
  5. HelpMe_wp

    HelpMe_wp Well-Known Member

    Registriert seit:
    7. Dezember 2018
    Beiträge:
    186
    Zustimmungen:
    0
    Ich habe alles geöffnet, aber GoogleSearchConsole (GSC) meldet immer noch folgende Abdeckungsfehler?

    Gesendete URL durch robots.txt blockiert
    https://www.celeritas.li/index.php?page=webinar
    https://www.celeritas.li/index.php?page=waehrung

    Gesendete URL als "noindex" gekennzeichnet (zb:)
    https://www.celeritas.li/index.php?page ... ntwicklung
    https://www.celeritas.li/index.php?page=28970

    SEO Auswertung: https://freetools.seobility.net/de/seoc ... leritas.li
    Robots.txt = https://celeritas.li/robots.txt
    SiteMap.xml = https://www.celeritas.li/sitemap.xml

    Ich finde nicht heraus, warum er dies Meldet. Den Index.php ist ja erlaubt und das Verzeichnis wp (WordPress) auch.
     
  6. arnego2

    arnego2 Well-Known Member

    Registriert seit:
    10. Januar 2021
    Beiträge:
    592
    Zustimmungen:
    63
    Google hat im letzten Jahr verkündet das der Robots Text nicht mehr beachtet wird:
    searchenginejournal.com/google-robots-txt-noindex/314961/
     
  7. HelpMe_wp

    HelpMe_wp Well-Known Member

    Registriert seit:
    7. Dezember 2018
    Beiträge:
    186
    Zustimmungen:
    0
    Ach so, noch nie was davon gehört.
    Wie kann man dann die Seite in bei Google Eintragen,
     
  8. maxe

    maxe Well-Known Member
    Ehrenmitglied

    Registriert seit:
    1. Mai 2008
    Beiträge:
    19.581
    Zustimmungen:
    277
    das ist so komplett falsch, es werden lediglich einige Anweisungen in der robots.txt nicht mehr unterstützt, z.B.
    Noindex
    Nofollow
     
    threadi und Marcus[IS] gefällt das.
  9. Marcus[IS]

    Marcus[IS] Well-Known Member

    Registriert seit:
    23. August 2009
    Beiträge:
    5.955
    Zustimmungen:
    175
    Zu Deutsch Google greift jetzt Links ohne ende ab, auch wenn der Website Admin das für einige Seiten nicht will. Die müssen es ja echt nötig haben. :rolleyes:
     
  10. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Nööö, Disallow funktioniert ja immer noch. "NoIndex" gehört gar nicht zum "Robots exclusion standard" und war ohnehin nur eine Google-Erfindung.

    Gruß
    Ingo
     
    threadi und maxe gefällt das.
  11. maxe

    maxe Well-Known Member
    Ehrenmitglied

    Registriert seit:
    1. Mai 2008
    Beiträge:
    19.581
    Zustimmungen:
    277
    Im ernst, wer hatte denn bisher die noindex Anweisung in der robots.txt ... ich nicht. Normalerweise stehen diese im meta-tag.
     
  12. arnego2

    arnego2 Well-Known Member

    Registriert seit:
    10. Januar 2021
    Beiträge:
    592
    Zustimmungen:
    63
    Jupp hier ein paar Klagen: https://support.google.com/webmasters/thread/27989233?hl=en

    Wer sich mal die Mühe machen würde nach google ignores robots text in der Suchmachine seiner Wahl sieht mit eigenen Augen das Google nicht nur einen Feature ignoriert.
     
  13. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Die Antworten hast Du aber nicht gelesen, oder? :)

    Ich hatte früher auch mal gedacht, das der Google-Bot Einträge in der robots.txt ignoriert. Letzendlich stellte sich aber heraus, das ich da einfach ein paar Fehler drin hatte bzw. von falschen Annahmen ausgegangen war.

    Gruß
    Ingo
     
  14. arnego2

    arnego2 Well-Known Member

    Registriert seit:
    10. Januar 2021
    Beiträge:
    592
    Zustimmungen:
    63
    Du meinst das es falsche Google Spider waren?
    Raus ist das ja nicht. Ist möglich, nur meine Erfahrungen besagen das Google eigentlich alles Indexed was verlinkt ist.
    So sagte Google es auch schon einmal, allerdings in einem anderen Zusammenhang.
     
  15. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Auch, aber es gab auch Probleme weil die Groß-/Kleinschreibung nicht berücksichtigt wurde.

    Ja, das sagt Google selber, daß man mit der robots.txt nicht die Indexierung, sondern nur das Crawling steuern kann.
    Aber alles was syntaktisch korrekt für den Google-Bot in der robots.txt gesperrt ist, wird vom Google-Bot nicht "angefaßt". So zumindet meine Erfahrung.

    Gruß
    Ingo
     
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden