UIMA-HPC
Multimodale Informationsextraktion aus unstrukturierten Daten auf HPC Systemen
Description
Die unglaubliche und weltweit ständig wachsende Fülle von Fachartikeln, Patenten und anderen Nachrichtenquellen (wie z.B. blogs) ruft sozusagen nach einem automatischen Lesen und Auswerten. So enthält die Literaturreferenzdatenbank PubMed (http://www.ncbi.nlm.nih.gov/pubmed/) derzeit mehr wie 20 Millionen Einträge auf dem biologisch-pharmakologischen Gebiet. Hier stößt die menschliche Fähigkeit, sich einen schnellen Überblick zu verschaffen, an ihre Grenzen. Die Idee dieses Projektes ist, Verfahren zu entwickeln, das bestehende Wissen in unstrukturierten Quellen schnell und effizient für neue Fragestellungen nutzbar zu machen.
Die Herausforderung in diesem Projekt ist die volle Breite der Quellen-Formate: Texte und Bilder, Spalten und Bildunterschriften, Tabellen und Diagramme, Kolumnen und blogs, die alle automatisch, aber mit Sinn und Fachverstand interpretiert werden sollen. Deshalb werden neue Methoden der rechnerunterstützten Informationsextraktion benötigt, um Wissenschaftlern relevante Information in kompakter und strukturierter Form zur Verfügung zu stellen, welches über reine Stichwortsuchen hinausgeht:
„Sind Strukturvariationen um dieses Grundgerüst in der Literatur bereits erwähnt worden und wenn ja: gibt es Hinweise auf deren Wirkungen (z.B. toxische oder unerwartete Wirkungen)?“; „Sind die Strukturvariationen mit Rechten Dritter belastet bzw. kann ich hierauf freien Zugriff erhalten?“; „Welche Unternehmen oder Forschergruppen beschäftigen sich seit wann und mit welcher Stoßrichtung auf meinem Arbeitsgebiet?“
Inbesondere spielt der Zeitfaktor bei der automatischen Verarbeitung eine wesentliche Rolle und erfordert deshalb eine neue Herangehensweise, welche sich moderne Rechnerarchitekturen (Mehrkernsysteme) zu nutze macht.
Die Herausforderung in diesem Projekt ist die volle Breite der Quellen-Formate: Texte und Bilder, Spalten und Bildunterschriften, Tabellen und Diagramme, Kolumnen und blogs, die alle automatisch, aber mit Sinn und Fachverstand interpretiert werden sollen. Deshalb werden neue Methoden der rechnerunterstützten Informationsextraktion benötigt, um Wissenschaftlern relevante Information in kompakter und strukturierter Form zur Verfügung zu stellen, welches über reine Stichwortsuchen hinausgeht:
„Sind Strukturvariationen um dieses Grundgerüst in der Literatur bereits erwähnt worden und wenn ja: gibt es Hinweise auf deren Wirkungen (z.B. toxische oder unerwartete Wirkungen)?“; „Sind die Strukturvariationen mit Rechten Dritter belastet bzw. kann ich hierauf freien Zugriff erhalten?“; „Welche Unternehmen oder Forschergruppen beschäftigen sich seit wann und mit welcher Stoßrichtung auf meinem Arbeitsgebiet?“
Inbesondere spielt der Zeitfaktor bei der automatischen Verarbeitung eine wesentliche Rolle und erfordert deshalb eine neue Herangehensweise, welche sich moderne Rechnerarchitekturen (Mehrkernsysteme) zu nutze macht.
Partners
Project partners
Contact
Dr. Marc Zimmermann
Administrative contact
Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI
Schloss Birlinghoven
Konrad-Adenauer-Straße
53757 Sankt Augustin
Germany