Automatisierte Informationserfassung aus Stellenausschreibungen

Das Stelleninserat ist eine relativ standardisierte Textsorte, die mit hoher Regelmässigkeit eine Auswahl grundlegender Angaben zur ausgeschriebenen Stelle, zu den Anforderungen, zur gesuchten Person und zum inserierenden Unternehmen enthält. Es bietet sich deshalb an, mit automatisierter Informationsverarbeitung eine Vielzahl höchst relevanter und interessanter Informationen aus Stelleninseraten zu gewinnen.

Dabei strebt der SMM einerseits an, die Erfassung von Informationen, die im Scientific Use File bereitgestellt werden, weitestgehend zu automatisieren. Andererseits sollen über innovative Text Mining-Verfahren neue, zusätzliche Informationen aus den Stelleninseraten erschlossen werden.

Zu diesem Zweck hat der SMM ein Text Zoning basierend auf neuronalen Netzen entwickelt (Gnehm, 2018). Dabei werden die verschiedenen inhaltlichen Bereiche des Stelleninserates, wie etwa die Beschreibung des Unternehmens, der ausgeschriebenen Stelle oder der gesuchten Person identifiziert und so die anschliessende Informationsextraktion erleichtert. Darauf aufbauend wurde beispielsweise die automatische Extraktion von IT-Skills realisiert (Buchmann, Buchs & Gnehm, 2020).

Eine umfassende automatische Erfassung von Stellenanforderungen (Aus- und Weiter-bildungen, Methoden-, Selbst-, Sozialkompetenzen, Sprachkompetenzen und IT-komplementäre Skills) und von Tätigkeitsbereichen der zu besetzenden Stelle wird im Rahmen des NFP-77 Projekts Monitoring Task and Skill Profiles in the Digital Economy angestrebt.

Als weiteres langfristiges Ziel sollen Informationen zur Selbstdarstellung der Unternehmen erfasst werden sowie auch die Ansprache der Stellensuchenden, respektive die expliziten oder impliziten Aussagen zu Geschlecht und Alter der gesuchten Person.

Publikationen

Schultheiss, Tobias, Curdin Pfister, Uschi Backes-Gellner & Ann-Sophie Gnehm. 2018. Tertiary education expansion and task demand: Does a rising tide lift all boats?
Economics of Education Working Paper Series 0154, University of Zurich, Department of Business Administration (IBW), revised Jul 2019. Link

Gnehm, Ann-Sophie & Simon Clematide. 2020. Text Zoning and Classification for Job Advertisements in German, French and English. Proceedings of the Fourth Workshop on Natural Language Processing and Computational Social Science 2020:83–93. Link

Kiener, Fabienne, Ann-Sophie Gnehm & Uschi Backes-Gellner, 2020. Non-Cognitive Skills in Training Curricula and Heterogeneous Wage Returns. Economics of Education Working Paper Series 0175, University of Zurich, Department of Business Administration (IBW). Link