Projekt Knowledge Discovery and Data Engineering
Dieses Projekt lässt sich als Bachelor- und als Masterprojekt anrechnen.
Das Fachgebiet Wissensverarbeitung forscht an der Entwicklung von Methoden zur Wissensentdeckung und Wissensrepräsentation (Approximation und Exploration von Wissen, Ordnungsstrukturen in Wissen, Ontologieentwicklung) in Daten als auch in der Analyse von (sozialen) Netzwerkdaten und damit verbundenen Wissensprozessen (Metriken in Netzwerken, Anomalieerkennung, Charakterisierung von sozialen Netzwerken). Dabei liegt ein Schwerpunkt auf der exakten algebraischen Modellierung der verwendeten Strukturen und auf der Evaluierung und Neuentwicklung von Netzwerkmaßen. Neben der Erforschung von Grundlagen in den Gebieten Ordnungs- und Verbandstheorie, Beschreibungslogiken, Graphentheorie und Ontologie werden auch Anwendungen – bspw. in sozialen Medien sowie in der Szientometrie – erforscht.
In diesem Umfeld bietet das Fachgebiet regelmäßig eine Reihe von Projektthemen an. Die einzelnen Themen sind im Folgenden beschrieben:
Core Numbers in Bipartite Networks
Core numbers are efficient valuations for nodes in networks. They are a measure to describe the structural integration of nodes. In this work, you should characterize and study core numbers for bipartite graphs.
Informationen: Johannes Hirth
Intrinsische Dimension und Knoteneinbettungen
In dieser Arbeit soll untersucht werden, wie hoch die intrinsische Dimension von Datensätzen ist, welche mit verschiedenen Knoteneinbettungsverfahren aus Graphen erstellt wurden.
Informationen: Maximilian Stubbemann
Frontend Entwicklung für Conexp-clj
Ziel des Projektes ist es ein ein Web basiertes Frontend für conexp-clj zu entwickeln.
Informationen: Tom Hanika
Informationen: Johannes Hirth
Operationen aus der Relationalen Algebra in der Begriffsanalyse
Operationen (Joins etc) aus der Relationalen Algebra werden häufig verwendet um Daten zu verbinden oder zu kombinieren. Dadurch ergeben sich neue Zusammenhänge zwischen Objekten oder deren Eigenschaften. Eine Methode, um solche Zusammenhänge zu analysieren, kommt aus der Begriffsanalyse. Hierbei werden Veränderungen in der Begrifflichen Struktur analysiert und herausgearbeitet. In dieser Arbeit studieren Sie, wie sich die Begriffliche Struktur eines Datensatzes unter Verwendung von Operationen aus der Relationalen Algebra verändert.
Informationen: Johannes Hirth
Community Detection in WikiData zur Datensatzgenerierung
Knowlegde Graphs wie WikiData enthalten sehr viel Wissen, das im Bereich der künstlichen Intelligenz in vielen Anwendungen eingesetzt werden kann. Der Umfang an Informationen ist aber auch ein Problem für viele Anwendungen. Ihre Aufgabe besteht darin, Methoden der Community Detection in sozialen Netzwerken auf die Struktur von WikiData zu übertragen. Des Weiteren sollen Sie untersuchen, wie diese Methoden genutzt werden können, um kleinere Teil-Datensätze aus WikiData zu extrahieren.
Informationen: Johannes Hirth
Logische Repräsentationen für Skalenmaße
Eine Methode der Datenskalierung in der Formalen Begriffsanalyse sind Skalenmaße. Das Skalenmaß-Framework bietet eine kanonische Repräsentation für jede mögliche Skalierung. Diese Repräsentation ist aber nicht gut im Sinne der Interpretierbarkeit der Attribute. Um dieses Problem zu lösen, gibt es eine Interpretation der kanonischen Attribute mittels konjunktiv verknüpfter Attribute des Originaldatensatzes. In dieser Arbeit sollen Sie weitere logische Repräsentation erarbeiten und miteinander auf deren Interpretierbarkeit, Ausdrucksstärke und Berechenbarkeit vergleichen.
Informationen: Johannes Hirth
Evaluierung von Graphzeichnungen
Ziel dieser Arbeit ist es, zu evaluieren, welche “weichen” Kriterien für Graphzeichnungen in der Praxis wie stark mit als “schön” wahrgenommenen Zeichnungen korellieren. Außerdem soll untersucht werden inwieweit die “wichtigen” Kriterien sich beim Zeichnen von Graphen und Ordnungsdiagrammen unterscheiden.
Informationen: Maximilian Stubbemann
Invarianten für Formale Kontexte
Es ist nicht einfach zu erkennen, ob zwei (reduzierte) Formale Kontexte isomorph sind, bzw. gegeben eine Menge Formaler Kontexte zu erkennen, wie viele verschiedene Formale Kontexte dort enthalten sind. Ein Hilfsmittel sind Invarianten, also abgeleitete Größen, die nicht von der konkreten Darstellung des Formalen Kontexts abhängen, beispielsweise die Anzahl der Attribute des Kontexts oder auch die Anzahl der Begriffe des Kontexts. Haben zwei Kontexte unterschiedliche Werte für eine Invariante, so sind die Kontexte nicht isomorph. Ziel ist es, Formale Kontexte hinsichtlich möglicher Invarianten zu untersuchen. Formale Kontexte können als bipartite Graphen dargestellt werden, daher sollen insbesondere bekannte Graph-Invarianten in Betracht gezogen werden.
Informationen: Maximilian Felde
Begriffliches Skalieren von Datensätzen
Begriffliches Skalieren ist eine Methode der Formalen Begriffsanalyse, um einen mehrwertigen Kontext (d.h. einen tabellarischen Datensatz) in einen (einwertigen) formalen Kontext zu überführen. Dazu wurde am Fachgebiet eine Anwendung entwickelt, die grundlegende Funktionalität zum Begrifflichen Skalieren bereitstellt. Ziel des Projekts ist es, diese Anwendung weiterzuentwickeln. Die Programmiersprache ist Clojurescript.
Informationen: Maximilian Felde
Erklärbarkeit von Klassifikatoren durch Surrogate
Viele der gegenwärtig genutzten Lernmodelle zur Klassifikation erzeugen sogenannte Blackbox-Funktionen/Relationen, z.B. Random Forests oder Neuronale Netze. Diese entziehen sich einer direkten Erklärbarkeit und sind daher für Nuetzer*innen schwer nachvollzieh- und überprüfbar. Es gibt verschiedene numerische / kategorische/ statistische Ansätze um diesen Problem zu begegnen. Ein besonderer Ansatz ist Surrogatlernen, d.h., das Trainieren eines erklärbaren Klassifikators basierend auf einer Blackbox. Je nach Ausrichtung (Projekt/Bachelorarbeit/Masterarbeit) soll versucht werden bestehende Surrogat-Ansätze praktisch zu evaluieren oder theoretische Ansätze fortzusetzen.
Informationen: Tom Hanika
PCA auf formalen Kontexten
Principal Component Analysis dient dazu Datensätze zu vereinfachen. Hierbei wird eine große Menge an (möglicherweise) korrelierten Variablen in eine möglichst aussagekräftige kleinere Menge transformiert. Dieses Vorgehen soll auf formale Kontexte übertragen werden, um die ihre Merkmalsmenge einzuschränken.
Informationen: Maren Koyda
Weitere Themen auf Nachfrage.
Aufgabenstellung und Termin
Nach Absprache mit der/dem jeweiligen Betreuer*in. Je nach Thema kann die Aufgabe in Kleingruppen oder einzeln bearbeitet werden.
Projektvorbesprechung
Montag, 25.4.2022, 16.15 Uhr in Raum 0445/E.
Bei Interesse können Sie auch gerne vorab die/den jeweiligen Betreuer*in ansprechen.
Vorkenntnisse
Informatik Grundstudium
Angesprochener Hörer*innenkreis
Informatik Bachelor und Master, Math. NF Inf. Hauptstudium
Umfang
6 oder 12 Credits im Bachelor, bzw. 8 Credits im Master
Leistungsnachweis
Implementierung, schriftliche Ausarbeitung und zwei Vorträge (bei 6 Credits 20 min, bei 8/12 Credits 30 min, jeweils zzgl. ca 15 min Diskussion)
Veranstalter*in
Prof. Dr. Gerd Stumme, Dr. Tom Hanika, Dominik Dürrschnabel, M.Sc., Maximilian Felde, M.Sc., Johannes Hirth, M.Sc., Maren Koyda, M.Sc., Maximilian Stubbemann, M.Sc.
Ablauf
In der Regel sollte die Projektarbeit mit Semesterbeginn begonnen werden. Nach 4-6 Wochen findet eine Zwischenpräsentation statt, in der der Stand der Projektarbeit vorgestellt wird. In der Regel in der ersten Vorlesungswoche des folgenden Semesters werden dann die Endergebnisse vorgestellt. Eine kurze Beschreibung der Arbeit (5 Seiten) ist 3 Tage vor dem Vortrag einzureichen.
Eine Woche nach der Annahme des Themas gibt die/der Studierende eine einseitige Beschreibung der Aufgabe, sowie einen Arbeitsplan für das Semester ab. Zur besseren Koordination und Kommunikation wird erwartet, dass die/der Studierende bei einem 6(8-12) Credits-Projekt regelmäßig an einem (zwei) Tagen in der Softwarewerkstatt anwesend ist. Der genaue Tag ist in Absprache mit der/m Betreuer*in festzulegen.
Als Richtlinie für die Erstellung einer guten Ausarbeitung wird das Buch
Markus Deininger and Horst Lichter and Jochen Ludewig and Kurt Schneider. Studien-Arbeiten: ein Leitfaden zur Vorbereitung, Durchführung und Betreuung von Studien-, Diplom- Abschluss- und Doktorarbeiten am Beispiel Informatik. 5. Auflage. vdf Hochschulverlag, Zürich, 2005.
empfohlen, welches in der Bibliothek im Semesterapparat des Fachgebiets Wissensverarbeitung ausliegt, und welches auch in einigen Exemplaren ausleihbar ist. Wir empfehlen die Anschaffung dieses Buchs (9,50 €), da es Sie bis zur Masterarbeit (und weiter) begleiten kann.
Alle verwendeten Referenzen sind zusätzlich zum Literaturverzeichnis der Ausarbeitung in BibSonomy einzugeben, mit den Tags “projekt kde < laufendes Semester in der Form ss22 bzw. ww22 > ” und weiteren sinnvollen Tags.