1. Herzlich willkommen bei WPDE.org, dem grössten und ältesten deutschsprachigen Community-Forum rund um das Thema WordPress. Du musst angemeldet oder registriert sein, um Beiträge verfassen zu können.
    Information ausblenden

Word-Datei & Google Suche

Dieses Thema im Forum "Allgemeines" wurde erstellt von DummyGirl, 4. März 2021.

  1. DummyGirl

    DummyGirl Well-Known Member

    Registriert seit:
    4. März 2021
    Beiträge:
    233
    Zustimmungen:
    81
    Hallo Ihr Lieben! Ich bin neu hier, aber nicht neu in WP. ;)
    Kleine Frage: Ich stelle auf einer WordPress Website eine Word.doc zum Download bereit. Bei Eingabe bestimmter Suchwörter in Google erscheint die Datei als direkter Download. Der Suchende kann also die Datei direkt in Google downloaden, ohne die Site besucht zu haben.

    Hat jemand eine Idee, wie sich dem entgegenwirken lässt? Die Site mit dem Download soll natürlich indexiert werden, aber Download doch bitte nur für Besucher der Site.
     
  2. meisterleise

    meisterleise Well-Known Member

    Registriert seit:
    18. Januar 2012
    Beiträge:
    1.351
    Zustimmungen:
    345
    1. Einfache Möglichkeit: Downloads als ZIP anbieten
    2. robots.txt: Indexierung bestimmter Objekte von der Indexierung ausschließen:

    User-agent: *
    Disallow: /*pdf$
    Disallow: /*doc$


    In beiden Fällen werden die Inhalte der Dateien nicht mehr indexiert. Falls du aber möchtest, dass die Dateien zwar indexiert werden, aber in den Suchmaschienen nicht direkt zum Download bereit stehen: Da fehlt mir die Idee. :rolleyes:

    p.s.: Da die Dateien bereits indexiert sind, kann es natürlich eine Weile dauern, bis sie aus dem Index wieder verschwinden. Möglichkeit 1 verschafft hier unmittelbar Abhilfe. Dafür bekommt der Besucher bis zur Neuindexiertung aber eine Fehlermeldung.
     
    DummyGirl gefällt das.
  3. DummyGirl

    DummyGirl Well-Known Member

    Registriert seit:
    4. März 2021
    Beiträge:
    233
    Zustimmungen:
    81
    Tatsächlich möchte ich eigentlich genau das! :D
    Ich werde es mal mit den robots versuchen. Schonmal ein ganz großes Danke für deine Vorschläge!!!
     
  4. Persephone

    Persephone Well-Known Member

    Registriert seit:
    21. Februar 2016
    Beiträge:
    597
    Zustimmungen:
    48
    Wenn die Word doc einen Permaklink mit deiner Domain hat, was sie muß, sonst hättest du sie nicht in den Serps gefunden, dann provitiert auch deine Website davon, wenn die jemand anklickt und downloadet. Da solltest du die Vor und Nachteile noch mal genau abwägen.
     
  5. DummyGirl

    DummyGirl Well-Known Member

    Registriert seit:
    4. März 2021
    Beiträge:
    233
    Zustimmungen:
    81
    Danke @Persephone, da muss ich nicht lange abwägen. Ich möchte auf keinen Fall, dass jemand Dateien laden kann, ohne die Website zu besuchen. Oberste Prioriät ist somit, das zu verhindern. Alles Weitere wäre dem untergeordnet.
     
  6. b3317133

    b3317133 Well-Known Member

    Registriert seit:
    21. November 2014
    Beiträge:
    11.637
    Zustimmungen:
    1.778
    Du könntest zum Thema htaccess hotlink (google) nachlesen und darüber den sog. HTTP_REFERER prüfen.

    Man sollte sich bei solchen Lösungen aber darüber im klaren sein, dass manche "Privacy" AddOns in Browsern oder auch "Sicherheitssoftware" auf PCs ggf. die Möglichkeit bieten, den sog. HTTP_REFERER im Browser zu unterdrücken, so dass solche Besucher dann die Dateien gar nicht herunterladen könnten.
     
  7. DummyGirl

    DummyGirl Well-Known Member

    Registriert seit:
    4. März 2021
    Beiträge:
    233
    Zustimmungen:
    81
    Danke @b3317133, jetzt habe ich auch endlich ein Wort für mein Problem: Hotlinking! Nur dass hier der Bösewicht Google heißt, was die Sache komplizierter macht. Während also normalerweise Suchbots fürs hotlinking eine Ausnahme erhalten, geht es mir hier explizit um sie. Ergo müsste ich sie ausschließen, was also das gleiche Ergebnis zur Folge hätte, wie @meisterleise s Lösung der robots.txt, nämlich dass die Datei nicht indexiert wird. Wenn ich das richtig sehe, also nur ein alternativer Weg, der aber auch keine Vorteile bietet – oder? :rolleyes:
     
  8. arnego2

    arnego2 Well-Known Member

    Registriert seit:
    10. Januar 2021
    Beiträge:
    592
    Zustimmungen:
    63
    Robots.txt wird von Google weitgehend Ignoriert.
    Sollte die Seite von außen von jemanden verlinkt werden/sein ist sie im Index.
    Ändere den Ort des Downloads, eine Weiterleitung der alten downloadseite zum Kontakt oder index.
    Die Download Datei dann zippen und verschlüsseln.
     
  9. threadi

    threadi Well-Known Member

    Registriert seit:
    9. Oktober 2020
    Beiträge:
    1.967
    Zustimmungen:
    397
    Wie kommst Du zu der Erkenntnis? Vlt. auf Grund der letzten Meldungen, dass Noindex nicht mehr seitens Google unterstützt wird? Dieser Eintrag ist ohnehin nicht Standard und für den Anwendungsfall hier könnte man Disallow durchaus verwenden um Google über die robots.txt auszuschließen.
    https://developers.google.com/search/docs/advanced/robots/robots-faq?hl=de
     
    Michi91 gefällt das.
  10. arnego2

    arnego2 Well-Known Member

    Registriert seit:
    10. Januar 2021
    Beiträge:
    592
    Zustimmungen:
    63
  11. threadi

    threadi Well-Known Member

    Registriert seit:
    9. Oktober 2020
    Beiträge:
    1.967
    Zustimmungen:
    397
    Das betrifft wie von mir bereits geschrieben nur den Noindex-Wert. Der Disallow-Wert wird von Google respektiert wie man unter deinem Link wie auch in deren o.g. Dokumentation nachlesen kann. Wenn Du irgendwo eine Info hast, dass Google wie Du sagst die robots.txt "weitgehend ignoriert" nur her damit - es entspricht aber nicht der Realität.
     
  12. arnego2

    arnego2 Well-Known Member

    Registriert seit:
    10. Januar 2021
    Beiträge:
    592
    Zustimmungen:
    63
  13. r23

    r23 Well-Known Member

    Registriert seit:
    9. Dezember 2006
    Beiträge:
    7.317
    Zustimmungen:
    582
    Du musst einen richtigen Affentanz machen, wenn du Seiten aus den Index haben möchtest.
    https://support.google.com/webmasters/answer/9689846#block_content

    Vor allem das endgültig entfernen wird zur Schikane - da Du dafür Deine geliebte robots nicht verwenden sollst. (extra rot im obigen Dokument)

    Googel ist optimiert im Content "nehmen" - da die Erstellung selbst für Google "aufwendig" ist - wurde alles mögliche Entwickelt. Google behält auch gerne die Besucher mit fremden Inhalten auf der eigenen Seite. Zum Beispiel bei Sportereignissen wirst du _immer_ die Ergebnisse auf Googel finden ... Wikipedia wird auch wunderbar für Gewinnmaximierung / Ausbeutung verwendet.

    Wenn Google erst einmal den Inhalt hat (hier ein Word Dokument) liefert der Monopolist die Datei aus. Den Besucher auf die Seite zu bringen _interessiert_ nicht. Dies wird auch mit pdfs und den anderen Dateiformaten so gemacht.

    Google liefert zum Beispiel auch 3D Modelle aus. https://omr.com/de/google-suche-augmented-reality/ Da hast du aus Urheber _nichts_ rein gar nichts von.

     
    arnego2 gefällt das.
  14. meisterleise

    meisterleise Well-Known Member

    Registriert seit:
    18. Januar 2012
    Beiträge:
    1.351
    Zustimmungen:
    345
    Also dass Google mit dem Bereitstellen von Inhalten ein immer größeres Ärgernis darstellt (worüber der allgemeine Nutzer sich nicht beschweren wird, weil es ja so schön praktisch ist), da gebe ich euch Recht. Dennoch funktioniert bei meinen Seiten und meinen Kundenseiten das DISALLOW zuverlässig. Mit DISALLOW schließe ich standardmäßig bspw. das Impressum/Datenschutz aus.
     
  15. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Ja, das sagt Google selber, daß man mit der robots.txt nicht die Indexierung, sondern nur das Crawling steuern kann.
    Aber alles was syntaktisch korrekt für den Google-Bot in der robots.txt gesperrt ist, wird vom Google-Bot nicht "angefaßt". So zumindet meine Erfahrung.

    Gruß
    Ingo
     
  16. arnego2

    arnego2 Well-Known Member

    Registriert seit:
    10. Januar 2021
    Beiträge:
    592
    Zustimmungen:
    63
    Deine Erfahrungen in Ehren nur lassen sich die wohl schlecht auf die Masse im Internet übertragen.
    Wer seine Dateien nicht im Internet veröffentlicht sehen will darf sie nicht hochladen. Selbst eine nicht verlinkte URL einer Seite die du verlinkt hast und Google bekommt das mit, erscheint irgendwann einmal im Index.
     
  17. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Verstehe ich nicht. Ist die Seite nun verlinkt oder nicht?

    Oder meinst Du eine URL, die nur als Plain-Text auf einer Seite steht und gar nicht per 'a href=...' eingebunden ist?
    Ja, das ist bei Google tatsächlich so, da wird gerne alles, was wie eine URL aussieht, erfaßt. Aber wenn diese URL in der robots.txt ausgeschlossen ist, wir der Google-Bot den Inhalt nicht auslesen, also die URL nicht "anfassen".

    Und noch einmal, die robots.txt steuert den Zugriff durch Suchmaschinen-Bots und nicht die Aufnahme in den Suchindex.
    Bei der Google-Bildersuche ist das übrigens etwas anders. Da bedeutet der Ausschluß in der robots.txt auch ein Entfernen der Bilder aus dem Bilder-Index.

    Gruß
    Ingo
     
  18. arnego2

    arnego2 Well-Known Member

    Registriert seit:
    10. Januar 2021
    Beiträge:
    592
    Zustimmungen:
    63
    Eine Unterseite deiner Seite die nicht in deiner Seite verlinkt ist kann indexiert werden wenn ein Mensch,oder Bot diese URL in einem Forum, einer webseite, selbst in einem Email verlinkt hat.
     
  19. Putzlowitsch

    Putzlowitsch Well-Known Member

    Registriert seit:
    21. Oktober 2006
    Beiträge:
    5.955
    Zustimmungen:
    47
    Achso, ja, das nennt sich Backlink und ist ein fundamentales Prinzip des Internets. Das WWW basiert ja darauf, das Seiten nicht nur sich selbst, sondern auch andere Seiten verklinken.

    Das hat aber alles nichts mit der robots.txt und damit zu tun, ob der Google-Bot diese respektiert oder nicht.

    Es ist sicher richtig, daß Einzelerfahrungen nicht repräsentativ sind, aber warum sollte der Google-Bot meine Seiten anders behandeln als alle anderen Seiten?

    Deine Aussagen und Beispiele weiter oben stellen übrigens auch nur einzelne Beispiele dar und können ebenso wohl kaum "auf die Masse im Internet übertragen" werden.

    Gruß
    Ingo
     
    meisterleise gefällt das.
  20. arnego2

    arnego2 Well-Known Member

    Registriert seit:
    10. Januar 2021
    Beiträge:
    592
    Zustimmungen:
    63
    Kann sein.
    Wer sich wie du darauf ausruht das es bei IHM funktioniert wird dann irgendwann aus den Wolken fallen wenn es nicht mehr funktioniert.
     
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden