Automatisierte Informationserfassung aus Stellenausschreibungen

Das Stelleninserat ist eine relativ standardisierte Textsorte, die mit hoher Regelmässigkeit eine Auswahl grundlegender Angaben zur Stelle, zu den Anforderungen, zur gesuchten Person und zum inserierenden Unternehmen enthält. Es scheint daher besonders aussichtsreich, mit automatisierter Informationsverarbeitung eine Vielzahl höchst relevanter und interessanter Informationen aus Stelleninseraten zu gewinnen.

Der SMM hat zum Ziel, automatisierte Methoden der Erfassung und Standardisierung von Informationen im Stelleninserat zu entwickeln. Zwei Bereiche der Stellenausschreibungen, für die bislang kaum standardisierte Codierungen vorliegen, stehen dabei besonders im Fokus: Die Selbstdarstellung der personalsuchenden Unternehmen sowie die Beschreibung der Tätigkeitsfelder der offenen Stelle.

Typischerweise enthält eine Stellenausschreibung Informationen zu verschiedene inhaltlichen Bereichen, etwa eine Beschreibung des personalsuchenden Unternehmens, der ausgeschriebenen Stelle, der gesuchten Person, etc. Text Zoning hat zum Ziel, diese verschiedenen inhaltlichen Bereiche zu identifizieren und so eine anschliessende Informationsextraktion zu erleichtern. Als erster Schritt wird daher eine automatisierte Textsegmentierung entwickelt. Da für einen Teil des SMM-Textkorpus Textzonen manuell annotiert sind, kann dies mittels Supervised Machine Learning erreicht werden.

In einem zweiten Schritt sollen Informationen zur Selbstdarstellung der Unternehmen und zu den Tätigkeitsfeldern der statistischen Analyse zugänglich gemacht werden. Nebst dictionnairebasierten Ansätzen scheinen hier auch weiter gefasste Text Mining-Verfahren wie Clustering, Topic Modeling oder die computerunterstütze Entwicklung von Taxonomien und Ontologien vielversprechend.

Als langfristiges Ziel soll drittens die manuelle Erfassung von Variablen durch automatisierte Informationsextraktion abgelöst werden. Dies bedarf einer systematischen Evaluation, da statistische Analysen auf eine reliable und valide Extraktion von Information angewiesen sind. Die Entwicklung entsprechender Tools gleicht daher einem iterativen Prozess, in dem laufend evaluiert und verbessert wird.