Tag-URL vom Googlebot-Crawling ausschließen

LpapillonM · 6. Oktober 2014

[FONT=&quot]Hallo. Wenn ich eine Site-Abfrage mache. Dann erscheinen meine ca. 200 Artikel/ Seiten. Aber auch all meine wahnsinnig viele Schlagwörter, die ich mittlerweile bei den Artikeln eingegeben habe. Jedes Schlagwort hat eine URL. Im Moment sind es ca. 1100 Schlagwort-Tags. An und für sich würde mich das nicht stören.

Aber: seit neustem erhalte ich in den Google-Webmastertools Fehlermeldungen 503. Serverfehler. Es könnte doch sein, dass meine (unnötigen) Schlagwort-URLs Google so lange beschäftigen. Dass die Zeit nicht ausreicht, um all meine Artikel zu crawlen.

Deshalb meine Frage:
Mit welchem Code auf dem Server kann man Google anweisen, meine Schlagwort-URLs zu ignorieren. Also nicht zu crawlen. Irgendwo habe ich diesen Code im Internet schon mal gesehen. Aber ich finde ihn nicht mehr. Er wird dann wohl in die robots.txt rein kommen. Hat jemand eine Ahnung, welchen Code man nehmen muss? Vielen Dank!

[/FONT]

Gerd-E. · 6. Oktober 2014

Hi LpapillonM,

ich steuere die Indexierung mittels des Plugins wpSEO, andere SEO Plugins können das auch.

Es geht natürlich auch, wie hier von Monika beschrieben > http://www.texto.de/noindex-gezielt-in-wordpress-verwenden-1221/

Über die robots.txt sollte es mit

Disallow: /tag/

gehen.

Putzlowitsch · 6. Oktober 2014

Das Crawlen kann man nur mit dem entsprechenden Eintrag in der robots.txt unterbinden (wie von Gerd-E. geschrieben).
Durch "noindex" im Header wird nur die Aufnahme in den Suchindex verhindert.

Gruß
Ingo

Bambaataa · 6. Oktober 2014

Zitat von Putzlowitsch: ↑

Das Crawlen kann man nur mit dem entsprechenden Eintrag in der robots.txt unterbinden (wie von Gerd-E. geschrieben).
Durch "noindex" im Header wird nur die Aufnahme in den Suchindex verhindert.

Gruß
Ingo
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Richtig. Allerdings "sieht" Google dann auch nicht den noindex Tag auf der Seite und haut diese evtl. (wenn von irgendwo verlinkt) doch in den Index. Meist dann allerdings ohne Beschreibung und so, was nicht so schön ist. Daher eher Finger weg von der robots.txt und schön mit noindex arbeiten.

Soooooooo groß kann die Seite auch gar nicht sein, das Google damit nicht fertig wird

Putzlowitsch · 6. Oktober 2014

Das ist halt die Frage, will man den Google-Bot vom Crawlen abhalten oder verhindern, daß die Seiten in den Index gelangen. Ich hatte oben eher Ersteres herausgelesen.

Es gibt noch so eine Art Mittelweg. Man liefert dem Google-Bot per .htaccess eine 410-Seite aus. Damit bekommt der Bot nie die richtige Seite zu sehen und wird sie auch nicht in den Index aufnehmen bzw. früher oder später entfernen.

Gruß
Ingo

LpapillonM · 6. Oktober 2014

Zitat von Gerd-E.: ↑

Hi LpapillonM,

ich steuere die Indexierung mittels des Plugins wpSEO, andere SEO Plugins können das auch.

Es geht natürlich auch, wie hier von Monika beschrieben > http://www.texto.de/noindex-gezielt-in-wordpress-verwenden-1221/

Über die robots.txt sollte es mit

Disallow: /tag/

gehen.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

[FONT=&quot]Hallo,
vielen Dank für deine Antwort.
Ich benutze das Plugin All in One Seo Pack. Ganz unten stehen folgend Optionen. Die ich aber noch nie benutzt habe:
Robots Meta Noindex, Robots Meta Nofollow, Robots Meta NOODP, Robots Meta NOYDIR, Disable on this page/post.

Wie heißt der Befehl in deinem SEO-Plugin, den du benutzt.
Ich könnte mir vorstellen: Robots Meta Noindex.
Die Frage ist nur: Was da genau auf No-Index gesetzt wird.

Meta-Daten sind schließlich Titel, Description und Keywords.
Die möchte man ja nicht unbedingt auf Noindex haben.
Ansonsten sehe ich bei meinem All in One Seo Pack nichts.

[/FONT]

LpapillonM · 6. Oktober 2014

Ich will Google nur von meinen Schlagwörtern ausschließen. Von sonst nichts. Ich habe ca. 200 Seiten/ Artikel. Und dazu bei der Site-Abfrage ca. 1.000 URLs mit Schlagworten. Meine Seite ist noch nicht groß, das stimmt. Aber ich bekomme neuerdings in den GWT 503-Fehlermeldungen. Natürlich kann das alle möglichen Ursachen haben. Mein erster Gedanke war: Google hat mit den 1.000 Tag-URLs soviel zu tun, dass die Zeit knapp wird, all meine Artikel zu crawlen. Wenn ich die Site-Abfrage für meine Konkurrenzseiten mache: Dort sieht man keine URLs mit Schlagworten.

LpapillonM · 6. Oktober 2014

Zitat von Gerd-E.: ↑

Hi LpapillonM,

ich steuere die Indexierung mittels des Plugins wpSEO, andere SEO Plugins können das auch.

Es geht natürlich auch, wie hier von Monika beschrieben > http://www.texto.de/noindex-gezielt-in-wordpress-verwenden-1221/

Über die robots.txt sollte es mit

Disallow: /tag/

gehen.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Bist du sicher, dass mit disallow:/tag/ verhindert wird, dass für meine Schlagworte URLs angelegt werden? Nicht, dass man damit die Meta-Tags (Description usw) ausschließt.

Wo wir gerade beim Thema robots.txt sind. Ich habe sehr widersprüchliche Aussagen gelesen, wo die genau liegen soll auf dem Server. Die einen sagen: dort, wo die Domain liegt. Das wäre bei mir der Ordner "Wordpress". Die anderen sagen: im Root-Verzeichnis: das wäre eine Ebene oberhalb des Ordners "Wordpress". Es kann doch nur eins von beiden stimmen. Vielleicht weisst du ja Bescheid?

Putzlowitsch · 7. Oktober 2014

Die robots.txt-Datei muß da liegen, wo sich die Wurzel der Domain befindet. Sei muß mit http://example.com/robots.txt abrufbar sein und nicht mit http://example.com/wordpress/robots.txt oder sonst einem anderen Unterverzeichnis.

Wenn Dein WP in einem Ordner /wordpress/ liegt und auch so aufgerufen wird, müßt der Eintrag in der robots.txt natürlich auch entsprechend das Verzeichnis /wordpress/ enthalten, also:

Code:
Entschuldige, aber du musst dich registrieren oder anmelden um den Inhalt sehen zu können!
Gruß
Ingo

Gerd-E. · 7. Oktober 2014

Hi LpapillonM,

ich nutze Noindex.

LpapillonM · 8. Oktober 2014

Zitat von Putzlowitsch: ↑

Die robots.txt-Datei muß da liegen, wo sich die Wurzel der Domain befindet. Sei muß mit http://example.com/robots.txt abrufbar sein und nicht mit http://example.com/wordpress/robots.txt oder sonst einem anderen Unterverzeichnis.

Wenn Dein WP in einem Ordner /wordpress/ liegt und auch so aufgerufen wird, müßt der Eintrag in der robots.txt natürlich auch entsprechend das Verzeichnis /wordpress/ enthalten, also:

Code:
Entschuldige, aber du musst dich registrieren oder anmelden um den Inhalt sehen zu können!
Gruß
Ingo
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Doch Ingo! Ich habe noch einen!
Leuchtet mir alles ein, was du sagst. Aber wie erkenne ich, wo genau meine Domain liegt. Wenn es scheinbar 2 Möglichkeiten gibt: Ordner Wordpress oder oberstes Root-Verzeichnis des Servers. An welchem Ordner oder an welcher Datei sehe ich, wo meine Domain liegt. Für mich ist das alles sehr verwirrend, weil die einen so schreiben, die anderen anders.

Putzlowitsch · 10. Oktober 2014

Am zuverlässigsten gibt ein Blick in die Domain-Konfiguration im Kundenbereich Deines Webhosters Aufschluß. Dort wird die Domain einem Verzeichnis im Webspace zugeordnet. Wie man das findet und was man dort konkret sehen und einstellen kann, hängt vom Webhoster ab. Dazu kann man keine pauschalen Aussagen treffen.

Gruß
Ingo

WPDE.org

Tag-URL vom Googlebot-Crawling ausschließen

LpapillonM Well-Known Member

Gerd-E. Well-Known Member

Putzlowitsch Well-Known Member

Bambaataa Well-Known Member
Ehrenmitglied

Putzlowitsch Well-Known Member

LpapillonM Well-Known Member

LpapillonM Well-Known Member

LpapillonM Well-Known Member

Putzlowitsch Well-Known Member

Gerd-E. Well-Known Member

LpapillonM Well-Known Member

Putzlowitsch Well-Known Member

Nützliche Suchen

Tag-URL vom Googlebot-Crawling ausschließen

LpapillonM Well-Known Member

Gerd-E. Well-Known Member

Putzlowitsch Well-Known Member

Bambaataa Well-Known Member Ehrenmitglied

Putzlowitsch Well-Known Member

LpapillonM Well-Known Member

LpapillonM Well-Known Member

LpapillonM Well-Known Member

Putzlowitsch Well-Known Member

Gerd-E. Well-Known Member

LpapillonM Well-Known Member

Putzlowitsch Well-Known Member

Bambaataa Well-Known Member
Ehrenmitglied