1. Herzlich willkommen bei WPDE.org, dem grössten und ältesten deutschsprachigen Community-Forum rund um das Thema WordPress. Du musst angemeldet oder registriert sein, um Beiträge verfassen zu können.
    Information ausblenden

Import großer Datenmengen aus Drittsystem

Dieses Thema im Forum "Installation" wurde erstellt von mkronenfeld, 17. November 2016.

Schlagworte:
  1. mkronenfeld

    mkronenfeld Well-Known Member

    Registriert seit:
    10. Oktober 2016
    Beiträge:
    227
    Zustimmungen:
    0
    Hallo zusammen,

    ich stehe vor der Aufgabe 500.000 Beiträge in ein WordPress System zu importieren.

    Habt ihr einen Vorschlag, wie man diese Datenmengen mit möglichst wenig Handarbeit in das System bekommt?

    Hier noch ein paar Zusatzinfos:

    • Ob (Premium) Plugin oder Eigenbau ist egal, es geht mir mehr um best practices.
    • Ich habe einen Root Server zur Verfügung, ausreichend Speicher und alle nötigen Zugriffsrechte sind vorhanden.
    • Vorgaben für Dateiformat oder Paketgröße gibt es nicht. Ob CSV mit 1.000 oder XML mit 50.000 Einträgen - ich habe die freie Wahl.
    • 50.000 Datensätzen haben im CSV Format eine Größe von 625 MB.
    • Die Beiträge sind korrekt ausgezeichnet. Ein Testlauf mit 500 Beiträgen über den WordPress Importer war zufriedenstellend.

    Rückfragen werden gerne beantwortet!

    Viele Grüße
    Marvin
     
  2. Hille

    Hille Well-Known Member

    Registriert seit:
    22. Januar 2012
    Beiträge:
    7.965
    Zustimmungen:
    9
    Haste dir überhaupt mal Gedanken gemacht, wie groß eine Datenbank mit 500000 beitragen sein wird?
    Sonst kannste direkt per wp-cli auf der Konsole importieren.
     
  3. mkronenfeld

    mkronenfeld Well-Known Member

    Registriert seit:
    10. Oktober 2016
    Beiträge:
    227
    Zustimmungen:
    0
    Hallo Hille,

    danke für deine Rückmeldung. Die Idee per wp-cli zu importierten gefällt mir. Ich werde sie nachher mal ausprobieren.

    Zu deiner Rückfrage:
    Ja, ich habe leider eine ziemlich genaue Vorstellung, wie groß diese Datenbank sein wird.

    Die Datensätze beinhalten OCR Daten und wurden in einer mySQL Datenbank angeliefert. Außerdem liegen alle Dokumente als Bilddaten, die zuvor durch den Texterkennungs-Scan gelaufen sind, ebenfalls auf dem Server.

    Um diesen Zustand zu verbessern sind folgende Maßnahmen geplant:

    1. Bereinigung der Datensätze.
      Wir werden Präpositionen, Konjunktionen, etc. aus den Datensätzen entfernen.
    2. Konvertierung der Bilddaten.
      Die Daten liegen zur Zeit in Druckqualität vor. Wir werden die Daten in ein passenderes Format konvertieren (u.a. clustern) und wahrscheinlich auf einem Asset-Server ablegen.
    3. Erstellung eines Indexes für Suchanfragen.
      Um Anfragezeiten hoffentlich deutlich zu reduzieren.

    Viele Grüße
    Marvin
     
  4. mkronenfeld

    mkronenfeld Well-Known Member

    Registriert seit:
    10. Oktober 2016
    Beiträge:
    227
    Zustimmungen:
    0
    Kurzer Nachtrag:
    Der Import über wp-cli funktioniert einwandfrei. Ich konnte große Datenmengen innerhalb kürzester Zeit verarbeiten.

    Die bestehenden Datensätze wurden im XML Format exportiert und die Knoten danach mit insgesamt fünf regulären Ausdrücken auf das WXR (WordPress eXtended RSS) Schema angepasst.

    Danke nochmal für die kompetente Hilfe!

    Viele Grüße
    Marvin
     
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden
  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deiner Erfahrung anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden