Nutzung maschinellen Lernens zur Zuordnung von Fragestellungen und Experten in Lernplattformen

Community-Plattformen zur Beantwortung von Fragen wie Stackoverflow gehören zu den beliebtesten interaktiven Umgebungen im Internet, in denen Einzelpersonen Wissen austauschen können. Das Ermitteln von Experten, die Fragen beantworten könnten, ist eine der größten Herausforderungen dieser Plattformen. Im Rahmen des Projektes haben wir ein Vorschlagssystem basierend auf state-of-the-art Methoden gebaut, welches Communityfragen entsprechenden Experten zuweist.

Projektziele

Unter dem Projektthema „Cognitive Matchmaking bei Communities von Lernplattformen”, untersuchen wir die Anwendbarkeit von Recommender Systemen zum Matching von Communityfragen und Experten in Lernplattformen. Bestehende Systeme stehen vor der Herausforderung tausende von Experten, Nutzern mit Millionen von Fragen zu matchen, welches einen potenziellen Anwendungsfall für large-scale Recommender Systeme darstellt.
Im speziellen werden zwei verschiedene Recommender Systeme für die Zuordnung von Fragen mit Experten untersucht:
1. Topic Modeling basierte Recommender Systeme (LDA-Rec)
2. Transformer-Embedding basierte Recommender Systeme (SBERT-Rec)

Projektergebnisse

Wir schlagen zwei verschiedene Ansätze für Empfehlungssysteme vor, nämlich LDA-Rec und SBERTRec. LDA-Rec nutzt das probabilistische Topic Modeling von LDA zur Repräsentation von Fragen und Benutzer innerhalb eines Topicraums. Die Unähnlichkeit von Frage- und Benutzerpaaren wird über die Kullback-Leibler-Divergenz geschätzt. Das SBERT-Rec Empfehlungssystem besteht aus einem SBERT-Modell zur Repräsentation von Fragen/Benutzern und einem anschließenden Cosinus Moduls zur Schätzung der Ähnlichkeit. LDA-Rec unterscheidet sich grundlegend von SBERT-Rec in der Art und Weise, wie die Repräsentationen geschätzt werden. Das LDA-Modell geht von einer geschlossenen Welt aus und lernt granulare Themen innerhalb eines Korpus, während das SBERT-Modell Weltwissen einbezieht, wodurch es weniger auf ein bestimmtes Thema fokussiert ist. Außerdem liefert LDA interpretierbare korpusinterne Themen, die wertvolle Einblicke in die auf den Plattformen diskutierten Themen geben.
Unsere Ergebnisse zeigen, dass SBERT-Rec in beiden Datensätzen LDA-Rec übertrifft bzgl. des durchschnittlichen Rank Scores. Während SBERT-Rec in einem Open-World-Szenario ohne Vorannahmen über die zugrunde liegenden Themen des Korpus besser abschneidet, findet LDA-Rec einzigartige Themen innerhalb eines bestimmten Closed-World-Korpus

Nächste Schritte

Im Hinblick auf zukünftige Forschung wäre es interessant, das autoregressive Sprachmodell Generative Pre-trained Transformer 3 (GPT-3) zu verwenden, das noch mehr Weltwissen einbezieht. Wir werden auch die Auswirkungen von Tags auf die Darstellung der Fragen untersuchen.