HowTo & Tutorial: Suchen mit PHP/Solr in Lucene: Unicode Collation: eigene UmwandlungsRollen erstellen

Vorwort: wieso ein Blog zu PHP, Solr und Lucene?

Wieso ein Blog zu PHP, Solr und Lucene?
Gegenstand und Ausgangspunkt all unserer Aktivitäten auf diesem Gebiet war ein Projekt um ein Nachrichtenportal und die Aufgabe, Recherchen und Analysen im Nachrichtenbestand von über 10 Million News performant zu handeln. Die MySQL Volltextsuche kam da schnell an Ihre grenzen, Oracle war keine Alternative.
Es reifte also die Frage, wie können andere (etwa die Internetsuchmaschiene google) immense Datenmengen spielend handeln?
Wir lösten den MySQL volltext mit Lucene ab. Der Performancegewinn war dramatisch. Suchen im Datenbestand, die vorher über 10 Sekunden dauerten, brauchen mittels Lucene und Solr nur selten mehr als 20ms!
Eine neue Welt tat sich auf, die es zu erobern galt und schnell fiel auf, dass deutschsprachige Seiten zum Thema Mangelware sind. Dies soll sich mit diesem Blog ein wenig ändern.

Sie haben Fragen zu Solr/Lucene/PHP? Schreiben sie uns einen Kommentar!

Dienstag, 14. August 2012

Unicode Collation: eigene UmwandlungsRollen erstellen

Es gibt in Solr / Lucene immer wieder die Situation, dass zu indizierender Text umgewandelt werden muss. Beispielsweise hinsichtlich von Umlauten in der deutschen Sprache oder andere sprachspezifische Sonderzeichen. Auch die Umwandlung von Abkürzungen in oder aus Sonderzeichen ginge: beispielsweise ä <-> ae oder € <-> EUR oder GPB <-> £ und so weiter.

Dafür kann Unicode Collation zum Einsatz kommen, wie in diesem Artikel bereits beschrieben.

Dafür benötigt man eine entsprechende Datei mit den Definitionen der UmwandlungsRollen. Diese Datei, wir nennen sie customRolles.bin, können wir durch ein kleines Java Tool erstellen.
Dazu folgendes Java Progrämmchen erstellen/anpassen:

import java.io.*;
import java.text.*;
import java.util.*;
public class createRules {

    public static void main(String[] args) throws Exception {

    // zunächst die Standard Rollen laden für die aktuelle Sprache
    RuleBasedCollator baseCollator = (RuleBasedCollator) Collator.getInstance(new Locale("de", "DE"));

    // Definition der Alias Zeichen: was steht wo für ae <-> ä (a\u0308)
    String DIN5007_2_tailorings =
      "& ae , a\u0308 & AE , A\u0308"+
      "& oe , o\u0308 & OE , O\u0308"+
      "& ue , u\u0308 & UE , u\u0308";

    // Anfügen der persönlichen Rollen an die vorhandenen
    RuleBasedCollator tailoredCollator = new RuleBasedCollator(baseCollator.getRules() + DIN5007_2_tailorings);
    String tailoredRules = tailoredCollator.getRules();
    // die neuen Rollendefinition als Datei ausgeben
    Writer fw = new OutputStreamWriter(
                new FileOutputStream("customRolles.bin"), "UTF-8");
    fw.write(tailoredRules);
    fw.flush();
    fw.close();
    }
}

Die Datei (am besten) als UTF-8 Text (createRules.java) speichern und mittels java Compiler compilieren:

user@host:> javac createRules.java

Anschließend das Progrämmchen ausführen:

user@host:> java createRules

Dann einfach die Datei einbinden, wie hier beschrieben und den Index neu aufbauen.

HowTo & Tutorial:
Suchen mit PHP/Solr in Lucene

Seiten

Vorwort: wieso ein Blog zu PHP, Solr und Lucene?

Dienstag, 14. August 2012

Unicode Collation: eigene UmwandlungsRollen erstellen

Keine Kommentare:

Kommentar veröffentlichen