Während die Bibliothek des US-Kongresses ihre Altbestände und historischen Dokumente noch mit proprietärer OCR-Software einlesen und verarbeiten muss, lässt Google an einer OpenSource-Software forschen.
Bereits im letzten Jahr hatte Google die OCR-Software Tesseract als OpenSource freigegeben.
Am Fachbereich Informatik der Uni Kaiserslautern hat Google nun einen Auftrag zur Weiterentwicklung der Software an die AG Image Understanding and Pattern Recognition um Prof. Thomas Breuel gegeben.
Wie das Google Code Blog berichtet, geht es vor allem um die (Weiter‑)Entwicklung einer Erkennungssoftware für Handschriften sowie um eine Analysesoftware für Layouts.
Ziel des Projekts OCRopus ist es, eine OCR-Software zur Dokumentenerfassung, für elektronische Bibliotheken, zur Unterstützung von Sehbehinderten sowie zur Analyse historischer Dokumente zu schaffen. Zudem soll die Software für den gewöhnlichen Desktop-Einsatz geeignet sein und sich leicht von anderen Wissenschaftlern für ihre Zwecke anpassen lassen.
[Quelle: Golem.de]
Die Kommentare sind geschlossen.