Vorwort: wieso ein Blog zu PHP, Solr und Lucene?

Wieso ein Blog zu PHP, Solr und Lucene?
Gegenstand und Ausgangspunkt all unserer Aktivitäten auf diesem Gebiet war ein Projekt um ein Nachrichtenportal und die Aufgabe, Recherchen und Analysen im Nachrichtenbestand von über 10 Million News performant zu handeln. Die MySQL Volltextsuche kam da schnell an Ihre grenzen, Oracle war keine Alternative.
Es reifte also die Frage, wie können andere (etwa die Internetsuchmaschiene google) immense Datenmengen spielend handeln?
Wir lösten den MySQL volltext mit Lucene ab. Der Performancegewinn war dramatisch. Suchen im Datenbestand, die vorher über 10 Sekunden dauerten, brauchen mittels Lucene und Solr nur selten mehr als 20ms!
Eine neue Welt tat sich auf, die es zu erobern galt und schnell fiel auf, dass deutschsprachige Seiten zum Thema Mangelware sind. Dies soll sich mit diesem Blog ein wenig ändern.

Sie haben Fragen zu Solr/Lucene/PHP? Schreiben sie uns einen Kommentar!

Freitag, 21. Dezember 2012

PDF, Word, Text, HTML Dokumente im Solr / Lucene Index

Hin und wieder erreicht uns ein Sonderprojekt. So auch in den letzten Wochen. Die Anforderung war eine Dokumentensuchmaschine aufzubauen, mit der vorhandene Dokumente,  allen voran Adobe Acrobat PDF und Word Dateien, schnell und elegant durchsucht werden können. Inklusive Platzhaltersuche, unscharfe Suche, gewichtete Suche, etc.
Mit dabei: einige tausenden Bücher: Acrobat PDF Dokumente mit 300-700 Seiten und bis zu 3 GB groß.
Zum Einsatz kam Lucene / Solr 4.0, welches seit Herbst 2012 als finale Version (nicht mehr Beta) vorliegt.
Für die Indexierung ganzer Dokumente, kann man bei Solr auf Tika zurückgreifen. Dies ist bereits in der Solr 3.x Version verfügbar.
In der Solr 4.0 Beispielkonfiguration ist darüber hinaus bereits der extracting request handler vorhanden.

Konfiguration Solr zur Indexierung von Dokumenten

 
 <requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="uprefix">ignored_</str>

      <!-- capture link hrefs but ignore div attributes -->
      <str name="captureAttr">true</str>
      <str name="fmap.a">links</str>
      <str name="fmap.div">ignored_</str>
    </lst>
  </requestHandler>
 
Dieser extracting request handler nutzt im Hintergrund Tika, um die an ihn übergebenen Dokumente zu analysieren. Dabei ist es egal, ob wir PDF Dokumente, Word (doc), Textdateien, Webseiten, also HTML Dokumente, u.s.w. übergeben. Das erleichtert die Arbeit erheblich, denn es müssen vorher die Dateien nicht mühsam in den einheitliches Format umgewandelt werden.
Tika, hinter dem  exreacting request handler, analysiert darüber hinaus die Metadaten der Dokumente, bspw. die Metainformationen eines PDF Dokumentes (Autor, Datum, etc) oder einer HTML Datei.
Damit dies alles funktioniert, müssen in der Schema.xml entsprechende Felder vorhanden sein. Auch hier macht es uns Solr recht einfach, denn die Klassiker wie Author und co sind bereits vorhanden.
   <field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
   <field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
   <field name="subject" type="text_general" indexed="true" stored="true"/>
   <field name="description" type="text_general" indexed="true" stored="true"/>
   <field name="comments" type="text_general" indexed="true" stored="true"/>
   <field name="author" type="text_general" indexed="true" stored="true"/>
   <field name="keywords" type="text_general" indexed="true" stored="true"/>
   <field name="category" type="text_general" indexed="true" stored="true"/>
   <field name="resourcename" type="text_general" indexed="true" stored="true"/>
   <field name="url" type="text_general" indexed="true" stored="true"/>
   <field name="content_type" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="links" type="string" indexed="true" stored="true" multiValued="true"/>
   <field name="content" type="text_de" indexed="true" stored="true" multiValued="true"/>

Das passt vor allem deshalb so gut, da klassisch erstellte PDF's gleiche Bezeichnungen bei den Metainformationen haben. Also auch dort gibt es ein Feld author. Zusätzlich möchten wir noch weitere Informationen verarbeiten. Bspw. das Erstellungsdatum. Dazu fügen wir ein eigenes Feld hinzu:
<field name="datum" type="tdate" indexed="true" stored="true" multiValued="false" /> 


Curl zur Indexierung von Dokumenten mit Sol / Lucene

Interessant wird's nun mit der Frage, wie man die Dokumente indexiert, also nach Solr / Lucene importiert.
Das ist abhängig von der Anwendung und den persönlichen Vorlieben und Fähigkeiten.
In unserem Fall nutzen wir CURL. Das geht aus der Linux Konsole heraus und auch aus PHP Skripten.
Wichtig ist dabei die Syntax. Damit definieren wir die Datei, die analysiert und indexiert werden soll sowie zusätzliche Felder, die wir für jede Datei noch speichern/verarbeiten wollen (bspw. datum und id)
 curl "http://localhost:8080/solr/collection1/update/extract/
                        ?literal.id=AH3DB2
                        &literal.datum=2012-01-01T09:22:38.00Z"
                        -data-binary "@/pfad/zu/meinemDokuemnt.pdf" 
                        -H "Content-type:application/pdf" 

Was passier hier?
Mit literal.id=AH3DB2 setzen wir die unique ID (Feld "id" in der schema.xml) des Dokumentes. Dieser Wert ist optional als CURL Parameter. Alternativ hätte Solr bzw. Tika einen Wert gesetzt, in aller Regel den Dateinamen. Mit dem literal. wird markiert, dass es sich hierbei nachfolgend um eine Feldbezeichnung handelt.
Mit literal.datum="2012-01-01T09:22:38.00Z" setzen wir unser zusätzliches Feld datum. Abschließend definieren wir die Datei, die zu solr gesendet werden soll: -data-binary "@/pfad/zu/meinDokuemnt.pdf" und definieren abschließend den mime-typ des Dokumentes.
Zum Schluss noch ein commit, damit die Daten im Index auch sichtbar sind. Auch das erreichen wir mittels curl
curl "http://localhost:8080/solr/collection1/update/extract?softCommit=true"
Fertig

Freitag, 2. November 2012

SolrCloud einrichten / Migration zu SolrCloud

Ergänzend zu diesem Artikel SolrCloud Grundlagen möchte ich nun darauf eingehen, wie wir unsere SolrCloud eingerichtet haben. Betroffen ist unser Solr Archiv Index: 40 GB historische Daten in einigen Millionen Dokumenten, welcher doch recht träge ist. Diesen Solr Index migrieren wir nun zur SolrCloud, wobei wir erstmal mit nur einem Host anfangen. Auf diesem Host laufen dann aber später 3 Shards, also 3 Scheiben eines Solr-Index. Dies alleine bringt einen Geschwindigkeitsgewinn, da der Solr Index nun über 3 CPU kerne skalieren kann, statt wie bisher auf einem Kern fest hängt.

Freitag, 28. September 2012

Realtime Suche vs. Performance

Unser Datenbestand unterliegt dauernden Änderungen. In der Ausprägung, dass täglich mehrere tausend Dokumente hinzu kommen. Das ist für Solr per se kein Problem. Unser Ziel ist jedoch, dass neue Dokumente quasi zeitgleich auch in Solr gefunden werden. Das heißt: permanentes Hinzufügen neuer Dokumente. Bei uns passiert das als Dienst alle 10 Sekunden.
Alle 10 Sekunden führen wir ein Dataimport durch, mit dem Parameter commit=true (oder autocommit) und optimize=false,  Commit ist wichtig, damit die Daten auffindbar sind. Optimize ist wichtig, damit die Suche performant ist. Und genau hier hängt das Problem.

Montag, 24. September 2012

SolrCloud Grundlagen

Mit wachsendem Datenbestand und mit der wachsenden Verbreitung einer Anwendung werden 2 Faktoren immer wichtiger: Performance und Ausfallsicherheit. Solr bot dafür bisher (und noch immer) Solr Distributed Search und Solr Replication. Nimmt man beide Features zusammen und packt noch etwas Konfigurationsmanagment hinzu, erhält man in etwa das, was Solr Cloud ausmacht.
Früher hätte man es einfach Solr Cluster genannt, heute heißt es dann natürlich Cloud. SolrCloud!
Vorab ein paar Einschränkungen / wichtige Punkte / Probleme zu Solr Cloud:

Solr Probleme mit Umlauten

Während Lucene eine Java Bibliothek ist, ist Solr die Java Anwendung, die diese Bibliothek nutzt. Wie für jede Java Anwendung wird auch für Solr eine Laufzeitumgebung benötigt.
Idealer Weise gibt es seit einigen Versionen von Solr beim offiziellen Download eine All-in-one Variante.
Darin werden geliefert: sämtliche Bibliothken, die man für besondere Solr Funktionen (Clustering, Dataimport Handler, Velocity, ...) benötigt, die Solr Anwendung selber und Jetty. Jetty ist ein kleiner Java Anwendungsserver, in dessen man die Solr Anwendung deployen, also installieren & laufen lassen kann.
Das funktioniert in aller Regel super...
...so lange man nicht versucht, deutsche Umlaute, also äöü und ß zu verarbeiten.

Freitag, 14. September 2012

mehere Solr Suchen / Abfragen in einem Request / URL Aufruf

Bei der Arbeit mit Solr /Lucene ergibt sich oft die Anforderung, dass für mehrere Suchbegriffe eine Solr Abfrage ausgelöst werden muss. Oftmals ändern sich dabei noch nicht einmal die FilterQuery Parameter, sondern lediglich der Suchbegriff. Jede Suchanfrage beginnt dabei mit dem Verbindungsaufbei vom Client / Applikation zum Solr Server. Es läppern sich Latzenzzeiten und Overhead. Die Frage ist also: Kann man in einem einzelnen Solr Request mehrere Suchen verarbeiten / durchführen?
Ja.

Dienstag, 14. August 2012

Unicode Collation: eigene UmwandlungsRollen erstellen

Es gibt in Solr / Lucene immer wieder die Situation, dass zu indizierender Text umgewandelt werden muss. Beispielsweise hinsichtlich von Umlauten in der deutschen Sprache oder andere sprachspezifische Sonderzeichen. Auch die Umwandlung von Abkürzungen in oder aus Sonderzeichen ginge: beispielsweise ä <-> ae oder € <-> EUR oder GPB <-> £ und so weiter.

Dafür kann Unicode Collation zum Einsatz kommen, wie in diesem Artikel bereits beschrieben.

Dafür benötigt man eine entsprechende Datei mit den Definitionen der UmwandlungsRollen. Diese Datei, wir nennen sie customRolles.bin, können wir durch ein kleines Java Tool erstellen.
Dazu folgendes Java Progrämmchen erstellen/anpassen:

Freitag, 20. Juli 2012

Gruppierung (Clustering), clusteringComponent konfiguration und installation

Was bedeutet Clustering

Eins vorab: wir sprechen hier nicht von Hochverfügbarkeit. Dies ist ein komplett anderes Thema, siehe SolrCloud.
Im vorliegenden Fall geht es eher um die semantische, inhaltliche Analyse von Dokumenten und deren Gruppierung:
Bei großen Datenmengen besteht oft der Bedarf, diese in Gruppen zusammenzufassen.
In unserem Beispiel geht es um ein Nachrichtensystem mit tausenden News täglich. Viel zu viel für einen Menschen. Möchte man diese Dokumente aufbereiten, so empfiehlt es sich, diese zu gruppieren. Etwa: alle Nachrichten zum Bereich Wirtschaft, Bereich Politik oder auch Thematisch: alle Nachrichten zur Bundestagswahl oder zu Fußballthema.
Jede dieser Gruppen nennt man Cluster (bestehend aus einzelnen Dokumenten).
Dabei ergeben sich folgende Fragen:
Wie erkenne ich, welche Dokumente zu einer Gruppe (einem Cluster) gehören?
Welchen Namen gebe ich letztlich der Gruppe an Dokumenten?
Bei diesen Fragen hilft uns ein Produkt sehr weiter: Carrot²

Seit Solr 3.1 ist Carrot integriert. Man spricht hier von ClusteringComponent. Aber auch mit älteren Solr Versionen kann man Carrot nutzen.