Vorwort: wieso ein Blog zu PHP, Solr und Lucene?

Wieso ein Blog zu PHP, Solr und Lucene?
Gegenstand und Ausgangspunkt all unserer Aktivitäten auf diesem Gebiet war ein Projekt um ein Nachrichtenportal und die Aufgabe, Recherchen und Analysen im Nachrichtenbestand von über 10 Million News performant zu handeln. Die MySQL Volltextsuche kam da schnell an Ihre grenzen, Oracle war keine Alternative.
Es reifte also die Frage, wie können andere (etwa die Internetsuchmaschiene google) immense Datenmengen spielend handeln?
Wir lösten den MySQL volltext mit Lucene ab. Der Performancegewinn war dramatisch. Suchen im Datenbestand, die vorher über 10 Sekunden dauerten, brauchen mittels Lucene und Solr nur selten mehr als 20ms!
Eine neue Welt tat sich auf, die es zu erobern galt und schnell fiel auf, dass deutschsprachige Seiten zum Thema Mangelware sind. Dies soll sich mit diesem Blog ein wenig ändern.

Sie haben Fragen zu Solr/Lucene/PHP? Schreiben sie uns einen Kommentar!

Dienstag, 26. November 2013

Solr mongoDB import

Situation

Manchmal ändern sich Situationen und Aufgaben. Im aktuellen Fall geht es darum, mittels Solr die Daten einer mongoDB zu indexieren. Also Solr für die Suche/Volltextsuche in mongoDB zu nutzen. Was wir brauchen ist der Data Import Handler (DIH) für mongoDB, den es so nicht gibt. ut of the Box versteht der DIH nur klassische DB Verbindungen, wie etwa zu MySQL.

Erfreulicher Weise ist 10gen, als Entwickler der Mongo DB, daran interessiert, dass sich deren Datenbank etabliert und versorgt die Welt mit diversen Konnectoren, Tools, etc.
Um die Daten der mongoDB in Solr zu indexieren, kann man sich des sogenannten "mongo Connector" bedienen. Ein Python Paket, entwickelt von Praktikanten bei 10gen....

 

Installation Mongo Connector

Diese Python-Skripte müssen zunächst installiert werden. Laut Doku geht dies mittels 'pip install mongo-connector'
Wer pip nicht nutzt, oder -wie ich- einen Server hat, der nicht mit dem Internet verbunden ist, hat einen weitaus steinigeren Weg.
Zunächst muss neben python auch das Paket 'python-setuptools' installiert, sowie folgende Python-Erweiterungen: urllib3 1.6, requests 2.0.1, pymongo 2.6.3, pyes 0.20.1, pysolr 3.1.0, simplejson 3.3.1. - jewiels bezogen auf den  Mongo Connector 1.1.1.

Diese Erweiterungen müssen vorher aus dem Internet heruntergeladen werden. Jedes dieser (G)Zip Archive beinhaltet einen Ordner, in dem sich eine 'setup.py' befindet. In diesem Ordner stehend muss dann das Paket mittels 'python setup.py install' installiert werden.
Anschließend den Mongo Connector (1.1.1) runter laden, auf dem Zielhost entpacken, in das Verzeichnis wechseln und ebenfalls mittels 'python setup.py install' installieren.

Zum Schluss steht ein ausführbares Skript namens 'mongo-connector' bereit.

 

Funktionsweise  Mongo Connector

Diese Connector funktioniert nun so, dass er sich gleichermaßen mit der mongoDB und einem Solr Core verbindet und die Daten aus der mongo Datenbank nach Solr "dumpt".

Solr vorbereiten


Dazu habe ich vorher einen neuen Solr Core angelegt, in dem ich ganz trivial die Verzeichnisse eines bestehenden Cores Kopiert und dann das Verzeichnis 'data' geleert  habe.
Danach habe ich die 'solr-core/conf/schema.xml' angepasst und Felder analog zum MongoDB Schema angelegt. Auch wenn es ein Oxymoron ist.
Zum Schluss noch in der solr.xml den neuen Core eintragen und solr neu starten.

Solr ist soweit also bereit zur Aufnahme der mongoDB Daten.

Mongo Connector  nutzen


Der Mongo Connector arbeitet so, dass er sich mit dem oplog der mongoDB verbindet, diese durcharbeitet und die Daten über einen sogenannten Doc Manager ausgibt. Der Doc Manager ist in unserem Fall ein speziell für Solr geschriebenes Modul des Mongo Connector.

Bei Start des Mongo Connectors werden nun folgende Parameter mit angegeben:
-m Adresse, unter der die mongoDB läuft
-t für den Solr Zielhost
-n für die zu indexierende mongoDB und Collection
-d für den Doc Manager, der die Daten für das Zielsystem (Solr) verarbeitet.

Wichtig: in der hier genutzten mongo Connector Version 1.1.1 gibt es einen Bug. Solr Umgebungen mit mehreren Cores werden nicht unterstützt. Dies stellt sich so dar, dass die Validierung des Zielsystems, in dem Fall der Solr URL, fehlschlägt. Es kommt folgende Meldung:
CRITICAL - MongoConnector: Bad target system URL!
Exception in thread Thread-1:
Traceback (most recent call last):
  File "/usr/lib64/python2.6/threading.py", line 522, in __bootstrap_inner
    self.run()
  File "build/bdist.linux-x86_64/egg/mongo_connector/connector.py", line 227, in run
    False, self.doc_manager,
AttributeError: 'Connector' object has no attribute 'doc_manager'

Der Workaround sieht so aus, dass man in der Datei '/mongo_connector/doc_managers/solr_doc_manager.py' die Validierung deaktiviert, in dem man folgende Zielen mittels '#' auskommentiert:
       # if verify_url(url) is False:
         #   raise SystemError

Nun kann der import auch mit einem Multi-Core Solr System realisiert werden. Ein beispielhafter Aufruf sieht dabei so aus aus:
# mongo-connector -m localhost:27017 -t http://localhost:8080/solr/mongo -n myMongoDb.myCollection -d ./mongo_connector/doc_managers/solr_doc_manager.py

Erstimport & inkrementeller Import

 Der MongoDB Connector legt eine Datei namens 'config.txt' an. Darin wird die oplog-Position vermerkt, bis zu welcher Daten bereits nach Solr eingeflossen sind. Startet man den mongo Connector zu einem späteren Zeitpunkt neu, werden nur die Daten in Solr indexiert, die seit dem letzten lauf das mongo Connectors hinzugekommen sind. Wünscht man einen initialen Neuimport, so muss man die 'config.txt' löschen und dann den connector neu starten.

Probleme

Beim mongo Connector gibt es folgende Nachteile zu beachten:
  1. Performance
    Jedes Dokument wird einzeln an Solr übergeben und mittels Commit bestätigt. Das ist sehr träge, gerade bei größeren Datenbanken. In einer Testumgebung werden pro Stunden 120.000 Dokumente nach Solr übergeben. Bei einer Datenbank mit bspw. 10 Millionen Dokumenten ist das System über 3 Tage mit dem import beschäftigt. Der klassische Weg über MySQL und Solr DIH (Data Import Handler) benötigt für die gleichen Daten 3 Stunden.
  2. oplog als Basis
    Das oplog ist bei mongoDB eine capped Collection. Das heißt, es ist ist davon auszugehen, dass in der DB selber mehr Daten sind, als im oplog. Ein Neuaufbau führt dann dazu, dass nicht alle Dokumente in Solr ankommen.
  3. Buggy
    Die Software wurde, vermutlich, mit einem kleinen, konkreten Fokus entwickelt und in die freie Wildbahn entlassen.Anschließend wurden verschiedene Balkone angebaut. In der aktuellen Version gibt es einige Probleme. Bspw. lässt sich das Programm nicht beenden. Nach dem initialen Import werden werden Änderungen in der Mongo-DB nicht Solr repliziert - hier ist ein Neustart erforderlich, etc.
Alles in allem arbeitet der mongo Connector ganz gut, ist aber aus meiner Sicht keine Option für den produktiven Einsatz.

Nachtrag: Wir haben nun einen eigenen Importer entwickelt, über den ich hier berichte: den mongoSolrImporter