1. Herzlich willkommen bei WPDE.org, dem grössten und ältesten deutschsprachigen Community-Forum rund um das Thema WordPress. Du musst angemeldet oder registriert sein, um Beiträge verfassen zu können.
    Information ausblenden

Google Bot crawlt Seite 15.000 x in 14h.... Hilfe!

Dieses Thema im Forum "Netzwelten" wurde erstellt von tom_010101, 12. Dezember 2015.

  1. tom_010101

    tom_010101 Well-Known Member

    Registriert seit:
    11. April 2014
    Beiträge:
    447
    Zustimmungen:
    2
    Hallo,

    meine Website www.tuningblog.eu war gerade seit gut 30min offline. Ein Anruf bei meinem Hoster 1&1 sagte mir das ein Googlebot mit der IP 6624964214 bis gerade eben die Seite heute 15.000 x gecrawlt hat und sie deshalb off war :shock: hat jemand eine Ahnung warum das so ist und was ich dagegen machen kann? :neutral:

    VG Thomas
     
  2. Hille

    Hille Well-Known Member

    Registriert seit:
    22. Januar 2012
    Beiträge:
    7.965
    Zustimmungen:
    9
    Schwer vorstellbar, das dies der Grund gewesen sein soll. Selbst 1000 Zugriffe pro Stunde sollten absolut kein Problem sein.
     
  3. tom_010101

    tom_010101 Well-Known Member

    Registriert seit:
    11. April 2014
    Beiträge:
    447
    Zustimmungen:
    2
    Jetzt ist sie gerade wieder offline... Verflucht! Und nun?
     
  4. borusse

    borusse Gast

    Bei mir lud sie jetzt.
     
  5. Monika

    Monika Well-Known Member
    Ehrenmitglied

    Registriert seit:
    4. Juni 2005
    Beiträge:
    14.126
    Zustimmungen:
    2
    bitte wende dich mit diesem Problem an das Webmasterforum von Google,
    wie sollen wir dir bei Googlebot Problemen 100% Antworten geben können, du bist mit dieser Frage dort 100% besser aufgehoben,

    und weil es keine WP Frage ist, verschieb ich in die Netzwelten.
     
  6. Tubedesigner

    Tubedesigner Well-Known Member

    Registriert seit:
    24. April 2015
    Beiträge:
    2.048
    Zustimmungen:
    2
    Dafür könnten Fake Googlebots verantwortlich sein, u.a. mit diesem Plugin

    https://de.wordpress.org/plugins/all-in-one-wp-security-and-firewall/

    kannst Du sie etwas besser unter Kontrolle halten, die Einstellungen dazu findest Du damit im Untermenü Firewall...
     
  7. flotte

    flotte Active Member

    Registriert seit:
    18. Mai 2014
    Beiträge:
    36
    Zustimmungen:
    1
  8. Tubedesigner

    Tubedesigner Well-Known Member

    Registriert seit:
    24. April 2015
    Beiträge:
    2.048
    Zustimmungen:
    2
    Die kann ebensogut von Fakebots bzw. deren Absender gefaked sein...
     
  9. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Nur kann über eine gefakte IP-Adresse meines Wissens keine TCP-Verbindung aufgebaut werden, denn der Server schickt sein ACK ja an die gefakte Adresse, in dem Fall Google. Google wird die Antwortpakete einfach verwerfen.

    Ohne Verbindung gibt es aber auch keinen HTTP-Request und somit kein "gecrawlt".

    Gut, falls sich der Angreifer in die Google-Netzwerk-Infrastruktur gehackt hätte, könnt er schon die Pakete abfangen und antworten, aber ist das realistisch?

    Gruß
    Ingo
     
  10. tom_010101

    tom_010101 Well-Known Member

    Registriert seit:
    11. April 2014
    Beiträge:
    447
    Zustimmungen:
    2
    Code:
    Entschuldige, aber du musst dich registrieren oder anmelden um den Inhalt sehen zu können!
    Hmmm ich habe jetzt diesen Code in die htaccess eingefügt!? Ist doch richtig oder? Einfach nur um die Seite erstmal gangbar zu machen aber nichts passiert. In den Webmaster tools habe ich die Crawl Häufigkeit jetzt auf relativ niedrig gestellt. Aber laut Infos wird das erst in 1-2 Tagen aktiv und im Moment ist wieder alles offline. Es ist zum verzweifeln...

    :(
     
  11. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Hast Du bei 1&1 einen Server/vServer oder ist das ein normales Webhosting-Paket?

    Im Moment bekomme ich nur ein "500 Internal Server Error".
    Die einfache HTML-Seite "liesmich.html" wird jedoch ganz normal angezeigt.

    Gruß
    Ingo
     
  12. Tubedesigner

    Tubedesigner Well-Known Member

    Registriert seit:
    24. April 2015
    Beiträge:
    2.048
    Zustimmungen:
    2
    Schon richtig, aber wir wissen ja nicht, welche Ziffernfolge von welchem Algorithmus in diesem (evtl. fälschlich) als "IP" gewertet wurde.

    Ein kleines erhellendes Experiment dazu, kann jeder mal selbst durchführen, dafür z.B. einfach im Firefox das Add-on Modify Headers installieren, damit eine Phantasiezahl als Header kreieren und dann damit aktiviert http://myip.is/ aufsuchen.

    In groß und fett wird bei dieser Vorgehensweise oben der Fakeheader als "IP" erkannt, klein unten in grau aber auch zusätzlich die echte IP des Zugangsproviders.

    Das nur, um zu verstehen, was im Prinzip und auch praktisch möglich ist, im realen Einsatzszenario eines Fakebot, kann man da noch viele andere Dinge zurechtfaken, die dann zumindest bei oberflächlicher Betrachtung eben gewollt anders erscheinen, als sie tatsächlich sind...
     
  13. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Hmmm, schönes Add-On.

    Es ist mir aber nicht gelungen, myip.is eine andere IP vorzugaukeln, als die tatsächliche. Vielleicht setze ich nicht das richtige Header-Feld. Mir sind da nur "X-Forwarded-For" und "Via" eingefallen, die dafür irgendwie funktionieren könnten. Allerdings hat sich z.B. https://www.whatismyip.com/ vom "X-Forwarded-For" täuschen lassen.

    Aber egal, im Apache-Log z.B. landet immer die IP-Adresse, mit welcher die Verbindung aufgebaut wurde. Und ernsthafte Netzwerkstools sollten auch nichts auf frei manipulierbare Felder im HTTP-Request-Header geben. Der Klassiker ist ja, einfach als User-Agent den Google-Bot zu verwenden.

    Ich hoffe mal, das der technische Support von 1&1 sich nicht durch solche billigen Tricks täuschen läßt. Wissen kann ich es allerdings nicht.

    Gruß
    Ingo
     
  14. Tubedesigner

    Tubedesigner Well-Known Member

    Registriert seit:
    24. April 2015
    Beiträge:
    2.048
    Zustimmungen:
    2
    ip.jpg


    x-Forwarded-For und all hat für diesen Fall schon funktioniert.


    Schon richtig, aber wer weiß, welche Tricks da evtl. doch möglich sind, die u.a. ich gar nicht kenne, weil's einerseits nicht gerade mein Fachgebiet ist, aber auch Fachleute auf Ihren Fachgebieten immer mal wieder ihre Dogmen revidieren müssen, weil wer was neues (er)findet.


    Das nehme ich auch ganz stark an, aber dieses Add-on sollte auch nur als Beispiel dienen, was im Prinzip bereits für jeden möglich ist und Anstoß zu Gedanken geben, dass da evtl. auch andere Wege existieren, die einen in solchen Fällen vielleicht doch auf eine falsche Fährte führen...
     
  15. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Interessant, danke für die Info.
    In X-Forwarded-For kommt die Fake-IP-Adresse aber was genau muß ich denn für All eintragen. Den Header-Parameter kenn ich gar nicht.

    Nun will ich genau wissen, wie es funktioniert... :)

    Gruß
    Ingo
     
  16. Tubedesigner

    Tubedesigner Well-Known Member

    Registriert seit:
    24. April 2015
    Beiträge:
    2.048
    Zustimmungen:
    2
    Hier gar nicht, ist mir bei diesem Plugin in den Kommentar gerutscht und gehörte zu was anderem, also nur X-Forwarded-For und die Fake-IP eintragen, dann Add und Doppelklick auf die Zeile im Listenfeld (wenn noch keiner grüner Punkt am Ende steht) zum Aktiviren und das Add-on auf Start...
     
  17. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Ahhh ja, jetzt funktionierts, danke!

    Mein Problem war allerdings, daß ich zum Test eine Verbindung genutzt hatte, die über einen echten Proxy läuft. Dieser ist so konfiguriert, daß er alle "X-Forwarded-For"-Header entfernt und auch selbst keinen hinzufügte. Und ich wundere mich, daß bei myip.is nichts ankommt...

    Gruß
    Ingo
     
  18. tom_010101

    tom_010101 Well-Known Member

    Registriert seit:
    11. April 2014
    Beiträge:
    447
    Zustimmungen:
    2
    Also es scheint so zu sein das sobald ich mittels Plugin (mehrere plugins getestet) das Caching der Seite aktivier dies das totale Chaos zur Folge hat. In dem Moment wo es aktiviert ist wird der Server förmlich "in die Knie gezwungen". Bei 1&1 sagte man mir das "die Load bei über 90 stehen" würde. Man kann dann auch überhaupt nichts mehr machen... Zuletzt war es so das ich einfach 5 Std. warten musste und dann ging die Seite wieder kurzzeitig, die Chance habe ich zum deaktivieren des Caching Plugins genutzt und seitdem läuft alles scheinbar sauber. Zumindest die letzten 6h... Zum verzweifeln das ganze...
     
  19. Monika

    Monika Well-Known Member
    Ehrenmitglied

    Registriert seit:
    4. Juni 2005
    Beiträge:
    14.126
    Zustimmungen:
    2
  20. Tubedesigner

    Tubedesigner Well-Known Member

    Registriert seit:
    24. April 2015
    Beiträge:
    2.048
    Zustimmungen:
    2
    Das ist dann doch eine ganz andere Sache, cachest Du die Inhalte etwa in Form eines Preloads alle auf einmal, das kann bei Shared Hosting (also den üblichen Webspacepaketen) zu Überlastungen beim Webhoster führen und das hat überhaupt nichts mit Google und seinen Bot oder Fakebots zu tun...
     
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden