Hin und wieder ergibt sich die Notwendigkeit, eine zweite Solr Instanz aufzubauen.
Etwa dann, wenn weitere Dokumente mit einer anderen Struktur indexiert werden sollen. Ein zusätzlicher Solr Index ist auch dann sinnvoll, wenn man zwischen Entwicklungsindex und Produktivindex trennen möchte; in diesem Zusammenhang auch, um neue Konfigurationen auf einer Instanz zu testen, während die zweite Instanz unverändert weiter läuft.
Im Idealfall kann man ad hoc zwischen beiden Konfigurationsalternativen wechseln.
Natürlich könnte man dazu diverse J2EE Container (tomcat, Jboss, Ant,...) parallel betrieben. Der Administrationsaufwand ist dafür allerdings "oversized", dann für genau diese Anwendungsfälle sind parallel Betriebene Solr Cores geschaffen.
Deutsche Seite mit Tutorials, HowTo's, und Grundlagen zu Lucene in Verbindung mit Solr und PHP als mächtiges und leistungsfähiges Trio für Voltextsuche und Datenanalysen.
Vorwort: wieso ein Blog zu PHP, Solr und Lucene?
Wieso ein Blog zu PHP, Solr und Lucene?
Gegenstand und Ausgangspunkt all unserer Aktivitäten auf diesem Gebiet war ein Projekt um ein Nachrichtenportal und die Aufgabe, Recherchen und Analysen im Nachrichtenbestand von über 10 Million News performant zu handeln. Die MySQL Volltextsuche kam da schnell an Ihre grenzen, Oracle war keine Alternative.
Es reifte also die Frage, wie können andere (etwa die Internetsuchmaschiene google) immense Datenmengen spielend handeln?
Wir lösten den MySQL volltext mit Lucene ab. Der Performancegewinn war dramatisch. Suchen im Datenbestand, die vorher über 10 Sekunden dauerten, brauchen mittels Lucene und Solr nur selten mehr als 20ms!
Eine neue Welt tat sich auf, die es zu erobern galt und schnell fiel auf, dass deutschsprachige Seiten zum Thema Mangelware sind. Dies soll sich mit diesem Blog ein wenig ändern.
Sie haben Fragen zu Solr/Lucene/PHP? Schreiben sie uns einen Kommentar!
Gegenstand und Ausgangspunkt all unserer Aktivitäten auf diesem Gebiet war ein Projekt um ein Nachrichtenportal und die Aufgabe, Recherchen und Analysen im Nachrichtenbestand von über 10 Million News performant zu handeln. Die MySQL Volltextsuche kam da schnell an Ihre grenzen, Oracle war keine Alternative.
Es reifte also die Frage, wie können andere (etwa die Internetsuchmaschiene google) immense Datenmengen spielend handeln?
Wir lösten den MySQL volltext mit Lucene ab. Der Performancegewinn war dramatisch. Suchen im Datenbestand, die vorher über 10 Sekunden dauerten, brauchen mittels Lucene und Solr nur selten mehr als 20ms!
Eine neue Welt tat sich auf, die es zu erobern galt und schnell fiel auf, dass deutschsprachige Seiten zum Thema Mangelware sind. Dies soll sich mit diesem Blog ein wenig ändern.
Sie haben Fragen zu Solr/Lucene/PHP? Schreiben sie uns einen Kommentar!
Mittwoch, 13. Juli 2011
Mittwoch, 22. Juni 2011
schema.xml
Die schema.xml liegt üblicher Weise im conf Verzeichnis einer jeden SOLR Instanz und dient zur Konfiguration des Lucene Index: wie werden Daten im Index gehalten und in wie weit werden sie noch bearbeitet (Stemming/Wortstammbildung, Stoppworte, etc)
Im ersten Moment wirkt diese Datei unübersichtlich und erschlagend. Tatsächlich ist sie aber nur voll gepackt mit Beispielen, die im konkreten Fall oftmals unnötig sind.
Die schema.xml kann man grob in 3 Bereiche unterteilen:
Im ersten Moment wirkt diese Datei unübersichtlich und erschlagend. Tatsächlich ist sie aber nur voll gepackt mit Beispielen, die im konkreten Fall oftmals unnötig sind.
Die schema.xml kann man grob in 3 Bereiche unterteilen:
Donnerstag, 16. Juni 2011
Faceted Search / Analyse der Daten im Volltext
Facetted search ist ein sehr mächtiges und nützliches Feature.
Dabei werden Suchen ggf. nur auf Teilbereiche angewandt und Ergebnisse gruppiert.
1.) Beispiel: Personalverwaltungssystem
Dabei werden Suchen ggf. nur auf Teilbereiche angewandt und Ergebnisse gruppiert.
1.) Beispiel: Personalverwaltungssystem
Abonnieren
Posts (Atom)