Volltextsuche durch PDFs

Ich habe mittlerweile für @die_reklame eine größere Sammlung an Zeitschriften-PDFs zusammengetragen und daher entstand der Wunsch, diese aktuell 300 GB auch im Volltext durchsuchen zu könnenb. Recoll bietet diese Möglichkeit.

Installieren

sudo add-apt-repository ppa:recoll-backports/recoll-1.15-on
sudo apt-get update
sudo apt-get install recoll

Für andere Betriebssysteme: https://www.lesbonscomptes.com/recoll/pages/download.html

Index erstellen

Bevor man suchen kann, muss man einen Index erstellen. Das Programm schlägt einem beim ersten Start genau das vor. Im "Start-Verzeichnis" das gewünschte Verzeichnis mit den zu indizierenden Dokumenten hinzufügen und auch als Sprache "german" aktivieren. Dann Starten und eine ganze Weile warten.

Nach Erstellen des Index kann alles durchsucht werden. Einfach oben einen Suchbegriff eingeben und unten erscheinen die Quelle sowie ein kleines Snippet. Ein Klick auf "Vorschau" oder "Öffnen" öffnet dann direkt die Quelle an der passenden Stelle.

Websearch

Recoll bietet auch das Feature, mit einem Firefox-Plugin die besuchten Webseiten zu speichern und zu indizieren. Eine Anleitung dafür gibt es hier.

Cronjob

Recoll kann die Indizierung regelmäßgig im Hintergrund anstoßen. Hierfür unter Einstellungen → Indexing schedule einen "Cron Zeitplan" einrichten




Backlinks: Technik Technik:Automatisches Webarchiv