Bachelor- und Masterarbeiten

Themen

Viele Aufgabenstellungen beschäftigen sich mit der Implementierung verschiedener Komponenten in eines der Websysteme, die am Fachgebiet betrieben werden, oder mit der Analyse der in solchen Systemen vorhandenen Daten. Darüber hinaus werden weitere Themen angeboten, die in der Regel einen inhaltlichen Bezug zu aktuellen Forschungsprojekten des Fachgebiets Wissensverarbeitung haben.

Die Themenstellung erfolgt in Absprache mit den Studierenden; die Ausrichtung und der Umfang der Arbeit richten sich nach dem jeweils angestrebten Anschluss. Prinzipiell liegt der Schwerpunkt bei Abschlussarbeiten auf der Methodik, während er bei Projektarbeiten auf der technischen Umsetzung liegt.

Zu folgenden Themengebieten können wir Arbeiten anbieten; zu konkreten Themen können die jeweiligen Betreuer*innen genauere Auskunft geben:

Knowledge Extraction from OpenStreetMap

Bei OpenStreetMap (OSM) handelt es sich um ein freies Projekt, dessen Ziel es ist, frei nutzbare Geodaten zu sammeln, zu strukturieren und für die Nutzung durch jedermann mittels einer (semantischen) Datenbank zur Verfügung zu stellen. Die Daten in OSM werden insbesondere durch eine Vielzahl von Tags [1] angereichert. Diese Tags können wiederum genutzt werden, um Orte oder Gebiete zu bechreiben. Im Projekt soll daher versucht werden, für gegebene Orte automatisch eine Beschreibung mittels Tags zu generieren. Für das Projekt soll eine Demonstrationsapplikation entwickelt werden, in Clojure oder Python3, welche es erlaubt, gegebene Orte automatisch anhand ihrer Beschreibung aus OSM zu vergleichen. Im Rahmen einer Abschlussarbeit kann darauf aufbauend ein ontologisches Rahmenwerk für diese Art von Ortsvergleichen angefangen werden.
[1] https://wiki.openstreetmap.org/wiki/Tags

Informationen: Tom Hanika

Causal AI — Implementing Causal Closure Operators

Eine große Herausforderung in der KI-Forschung ist es, kausale Zusammenhänge aus gelernten Modellen zu extrahieren. Die Formale Begriffsanalyse bietet dafür eine umfangreiche Palette an Werkzeugen, insbesondere die menschlich-nachvollziehbare Extraktion von Hüllenoperatoren und Hüllensystemen aus Daten. Ein interessanter Ansatz, dies für Kausale-KI zu nutzen, sind kausale Hüllenoperatoren, welche in diesem Projekt oder dieser Arbeit untersucht werden sollen. Dabei liegt für das Projekt der Schwerpunkt in einer effizienten Implementierung eines `Causal Closure Operators` aus der Literatur in Clojure oder Python3. Bei einer Abschlussarbeit liegt der Fokus auf einem Vergleich dieses Operators mit statistischen Ansätzen zu Kausalität in Daten.

Informationen: Tom Hanika

Analyse von WikiCite

Das WikiCite-Projekt [1] versucht, basierend auf der Infrastruktur von WikiData [2], (wissenschaftliche) Publikationen und deren jeweilige Zitationen abzubilden. Bis dato hat das Projekt 40 Mio. Publikationen und ca. 300 Mio Zitationen verlinkt. Ziel dieses Bachelor-/Master-Projektes bzw. einer möglichen Abschlussarbeit ist es, diese Daten hinsichtlich sozialer Netzwerkstrukturen zu analysieren.

[1] http://wikicite.org/

[2] https://www.wikidata.org/

Informationen: Tom Hanika

Intrinsische Dimension und Knoteneinbettungen

In dieser Arbeit soll untersucht werden, wie hoch die intrinsische Dimension von Datensätzen ist, welche mit verschiedenen Knoteneinbettungsverfahren aus Graphen erstellt wurden.

Informationen: Maximilian Stubbemann

Stabilität der intrinsischen Dimension

Es gibt mehrere Maße, um die intrinsische Dimension von Datensätzen abzuschätzen. In dieser Arbeit soll untersucht werden, inwieweit diese Maße stabil gegenüber “kleinen” Manipulationen/Fehler in den Datensätzen sind.

Informationen: Maximilian Stubbemann

Evaluierung von Graphzeichnungen

Ziel dieser Arbeit ist es, zu evaluieren, welche “weichen” Kriterien für Graphzeichnungen in der Praxis wie stark mit als “schön” wahrgenommenen Zeichnungen korellieren. Außerdem soll untersucht werden, inwieweit die “wichtigen” Kriterien sich beim Zeichnen von Graphen und Ordnungsdiagrammen unterscheiden.

Informationen: Maximilian Stubbemann

Invarianten für Formale Kontexte

Es ist nicht einfach zu erkennen, ob zwei (reduzierte) Formale Kontexte isomorph sind, bzw. gegeben eine Menge Formaler Kontexte zu erkennen, wie viele verschiedene Formale Kontexte dort enthalten sind. Ein Hilfsmittel sind Invarianten, also abgeleitete Größen, die nicht von der konkreten Darstellung des Formalen Kontexts abhängen, beispielsweise die Anzahl der Attribute des Kontexts oder auch die Anzahl der Begriffe des Kontexts. Haben zwei Kontexte unterschiedliche Werte für eine Invariante, so sind die Kontexte nicht isomorph. Ziel ist es, Formale Kontexte hinsichtlich möglicher Invarianten zu untersuchen. Formale Kontexte können als bipartite Graphen dargestellt werden, daher sollen insbesondere bekannte Graph-Invarianten in Betracht gezogen werden.

Informationen: Maximilian Felde

Eigenschaften von Knoteneinbettungen

In dieser Arbeit sollen verschiedene Einbettungsverfahren für Netzwerke dahingehend untersucht werden, inwiefern Eigenschaften wie “Nähe” im Ko-Autorengraphen mit der Nähe in der Einbettung korrespondiert. Bei welchen Verfahren werden Nachbarn “nahe” eingebettet? Korrespondiert die Pfadlänge von Knoten im Graphen zu ihrem Abstand im Graphen? Als weiterer Schritt kann hier untersucht werden, ob ein Klassifikator aus einem Graphen und einer Einbettung entscheiden kann, mit welchem Verfahren der Graph eingebettet wurde.

Informationen: Maximilian Stubbemann

Vergleich von bibliometrischen Datensätzen

Ziel dieser Arbeit ist es, mittels verschiedener Datenquellen Datensätze über die”Landschaft” der KI-Forschenden zu erstellen und zu vergleichen. Dabei sollen auf der einen Seite bibliometrische Indikatoren herangezogen werden als auch die resultierenden Ko-Autoren mit Hilfe der sozialen Netzwerkanalyse untersucht werden.

Informationen: Maximilian Stubbemann

Concept Neural Networks

Bei der Klassifikation in Graphen ist es üblich, mittels Graph Neuronalen Netzen (GNNs) die Struktur des Graphen zu nutzen, um die Klassifikation von Knoten zu verbessern. Ziel dieser Arbeit ist es, diesen Ansatz auf die Formale Begriffsanalyse zu übertragen, indem die “Faltungsoperation” anhand von Konzepten durchgeführt wird. Vergleichen Sie dieses Verfahren mit anderen Verfahren, die neuronale Netze basierend auf Begriffsverbänden nutzen!

Informationen: Maximilian Stubbemann

Erklärbarkeit von Klassifikatoren durch Surrogate

Viele der gegenwärtig genutzten Lernmodelle zur Klassifikation erzeugen sogenannte Blackbox-Funktionen/Relationen, z.B. Random Forests oder Neuronale Netze. Diese entziehen sich einer direkten Erklärbarkeit und sind daher für Nutzer:innen schwer nachvollzieh- und überprüfbar. Es gibt verschiedene numerische / kategorische/ statistische Ansätze, um diesem Problem zu begegnen. Ein besonderer Ansatz ist Surrogatlernen, d.h., das Trainieren eines erklärbaren Klassifikators basierend auf einer Blackbox. Je nach Ausrichtung (Projekt/Bachelorarbeit/Masterarbeit) soll versucht werden, bestehende Surrogat-Ansätze praktisch zu evaluieren oder theoretische Ansätze fortzusetzen.

Informationen: Tom Hanika

Thematische Trajektorien mit Dynamischen Topic Models

Am Fachgebiet Wissensverarbeitung wird zur Zeit an thematischen Trajektorien von wissenschaftlichen Konferenzen und Journalen geforscht. Um automatisiert Themen zu erkennen haben sich sogenannte Topic Models bewährt. In unserer Forschung wurde dafür bisher die Nonnegative Matrix Factorization (NMF) verwendet, welche statische Themen berechnet. In dieser Arbeit soll mindestens ein dynamisches Verfahren, bei dem sich Themen über die Zeit ändern (z.Bsp. D-LDA), auf seine Tauglichkeit überprüft werden. Das Verfahren soll auf die vorhandenen Forschungsdatensätze und ggf. Daten aus anderen Domänen angewandt und mit Hilfe von Gütemaßen verglichen werden.

Informationen: Bastian Schäfermeier

FCA RuleMining mittels GPU

Die Berechnung von Implikationsbasen in Formalen Kontexten (binären Datentabellen) basiert auf einem co-NP schweren Problem. Um dennoch Wissen in Form von Implikationen zu extrahieren, wurden verschiedene Maße für `interessante` Regeln und deren Berechnung gefunden. Da auch deren Berechnung bei wachsenden Datensätzen einer kombinatorischen Explosion gegenübersteht, ist eine hohe Parallelisierung mittels GPU-Hardware notwendig. In `GPU-Accelerated Parameter Optimization for Classification Rule Learning` schlagen die Autoren eine Variante von “beam-search” auf GPUs vor, die in dem vorliegenden Projekt untersucht, implementiert und auf Formale Kontexte angewendet werden soll.

Informationen: Tom Hanika

Reduktionstechniken in der Formalen Begriffsanalyse

Ein Problem für Algorithmen der Formalen Begriffsanalyse ist die Größe der Daten. In dieser Arbeit sollen verschiedene Techniken zur Größenreduktion oder Kompression zusammengetragen und gegenübergestellt werden. Dabei soll insbesondere auf den Informationsverlust in einem geeigneten Formalismus eingegangen werden.

Informationen: Johannes Hirth

Prominenz und Dominanz in Straßen-Netzwerken

Für die Bewertung der Wichtigkeit von Berggipfeln gibt es das Prominenz und das Dominanz-Maß. Diese Maße wurden in https://link.springer.com/chapter/10.1007/978-3-030-03667-6_24 auf Netzwerke übertragen. In dieser Arbeit geht es darum, diese Maße im Bezug auf Straßen-Netzwerke zu untersuchen. Beispielsweise kann überprüft werden, ob die Anfrage-Zeiten des Contraction hierarchies Algorithmus (https://en.wikipedia.org/wiki/Contraction_hierarchies) durch diese Maße verbessert werden können.

Informationen: Dominik Dürrschnabel

Link Prediction als Suche der Nadel im Heuhaufen

Zur Evaluierung von Embeddingmodellen für Netzwerke ist es gängige Praxis, zu bewerten, inwiefern die generierten Vektorrepräsentierungen zum Erraten von vergessenen/zukünftigen Kanten genutzt werden. Das gängige Experimentiersetup legt hierbei jedoch meistens eine ausbalancierte Klassifizierungsaufgabe zu Grunde. In dieser Arbeit soll die Aufgabe als “Suche der Nadel im Heuhaufen” betrachtet werden: Wenige zu findende tatsächliche Kanten sollen aus einer deutlich größeren Menge von “negativen Kanten” gefunden werden.

Informationen: Maximilian Stubbemann

PCA auf formalen Kontexten

Principal Component Analysis dient dazu, Datensätze zu vereinfachen. Hierbei wird eine große Menge an (möglicherweise) korrelierten Variablen in eine möglichst aussagekräftige kleinere Menge transformiert. Dieses Vorgehen soll auf formale Kontexte übertragen werden, um ihre Merkmalsmenge einzuschränken.

Informationen: Maren Koyda

Begriffsverband der Maße

Es gibt eine Vielzahl von Maßen zur Identifikation von interessanten formalen Begriffen in Begriffsverbänden. Diese besitzen wiederum sehr verschiedene Eigenschaften wie zum Beispiel Monotonie. Dieser Arbeit besteht aus dem Zusammentragen und der Erstellung einer begriffliche Ordnung aller bekannten Maße.

Informationen: Tom Hanika

Dichtebasiertes Clustering und FBA

Die zentrale Fragestellung dieser Arbeit ist die Verbindung zwischen dichtebasiertem Clustering und der Formalen Begriffsanalyse (FBA). Inwiefern können Ideen und Methoden des dichtebasiertem Clustering auf FBA übertragen werden?

Informationen: Gerd Stumme

Sprechen Sie uns gern zu weiteren Themen an. Informationen zu den einzelnen Themen geben Ihnen gerne vorab die Betreuer*innen.

Aufgabenstellung und Termin

Nach Absprache mit der/dem jeweiligen Betreuer*in.

Vorkenntnisse

Informatik Grundstudium bzw. 30 absolvierte Credits des Masterstudiums

Angesprochener Hörer*innenkreis

Informatik Bachelor und Master, Math. NF Inf. Hauptstudium

Umfang

9 Wochen für Bachelor und 6 Monate für Master

Leistungsnachweis

In der Regel Implementierung, schriftliche Ausarbeitung und Vortrag

Veranstalter

Dr. Tom Hanika, Dominik Dürrschnabel, M.Sc.Maximilian Felde, M.Sc., Maren Koyda, M.Sc.Bastian Schäfermeier, M.Sc., Maximilian Stubbemann, M.Sc.