Projekt Knowledge Discovery and Data Engineering Sommersemester 2023 – KDE – FB 16

Projekt Knowledge Discovery and Data Engineering

Dieses Projekt lässt sich als Bachelor- und als Masterprojekt anrechnen.

Das Fachgebiet Wissensverarbeitung forscht an der Entwicklung von Methoden zur Wissensentdeckung und Wissensrepräsentation (Approximation und Exploration von Wissen, Ordnungsstrukturen in Wissen, Ontologieentwicklung) in Daten als auch in der Analyse von (sozialen) Netzwerkdaten und damit verbundenen Wissensprozessen (Metriken in Netzwerken, Anomalieerkennung, Charakterisierung von sozialen Netzwerken). Dabei liegt ein Schwerpunkt auf der exakten algebraischen Modellierung der verwendeten Strukturen und auf der Evaluierung und Neuentwicklung von Netzwerkmaßen. Neben der Erforschung von Grundlagen in den Gebieten Ordnungs- und Verbandstheorie, Beschreibungslogiken, Graphentheorie und Ontologie werden auch Anwendungen – bspw. in sozialen Medien sowie in der Szientometrie – erforscht.

In diesem Umfeld bietet das Fachgebiet regelmäßig eine Reihe von Projektthemen an. Die einzelnen Themen sind im Folgenden beschrieben:

Temporal Ordinal Motifs in Topic Models

Topic models are, often, dimension reduction techniques for large corpora of textual documents. A central aspect to these models is that they allow for text based explanations of the dimensions in the reduced space. A novel technique, called ordinal motifs, interpret and visualize these dimension hierarchically with respect to (ordinal) substructures of standard shape. With your work, you extent this technique towards ordinal motifs over time, develop visualization techniques, and show their applicability in a practical setting.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Ordinal Motifs in Hierarchical Topic Models

Topic models are, often, dimension reduction techniques for large corpora of textual documents. A central aspect to these models is that they allow for text based explanations of the dimensions in the reduced space. A novel technique, called ordinal motifs, interpret and visualize these dimension hierarchically with respect to (ordinal) substructures of standard shape. With your work, you extent this technique towards hierarchical topic models, define hierarchical motif structures, develop visualization techniques, and show their applicability in a practical setting.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Network Motifs in Topic Flow Networks

In scientometrics, scientific collaboration is often analyzed by means of co-authorships. An aspect which is often overlooked and more difficult to quantify is the flow of expertise between authors from different research topics, which is an important part of scientific progress. With the Topic Flow Network (TFN) a graph structure for the analysis of research topic flows between scientific authors and their respective research fields was proposed. With your work, you identify and interpret substructures that are integral to this network.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Technischer Schwerpunkt

Formal Concept Analysis mit Attribut und Objektordnungen

In dieser Arbeit untersuchen Sie, inwiefern sich die Theorie der formalen Begriffsanalyse auf den Fall übertragen lässt, dass wir eine lineare Ordnung auf den Attributen und den Objekten vorliegen haben.

Das Ziel ist es, die in der FCA üblichen Ideen (Begriffe, Implikationen etc.) auf solche Datensätze zu übertragen und die Theorie mit Echtwelt-Datensätzen zu evaluieren.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Technischer Schwerpunkt

Implications in Conceptual Scaling

One way of computing dependencies in data set are implications. To extract implications from data sets, we first have to interpret the data on the ordinal level via a method called conceptual scaling. The implication that we find in the scaled data set can have two origins. The first are dependencies in the many-valued data set and the second are artifacts from the scaling process. With your work you develop a method to analyze these sets of implications separately.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Technischer Schwerpunkt

Decomposition of Concept Lattices

Conceptual structures are great hierarchical tools to analyze complex relations between data point. Recent approaches focus on identifying ordinal sub-structures of concept lattices that have specific shape, e.g., chains, cubes, cycles etc. The sub-structures are then used to derive highler level relations between data point or to explain the hierarchical structure. With your work, you study how this approach can be used to decompose concept lattices into sub-structures.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Technischer Schwerpunkt

Crossing-Minimal Point-Set Embedding

This task focuses on minimizing crossings on a given set of points. The input therefore consists of a graph and a set of points (at least as many as vertices of the graph). The goal is to assign the vertices of the graph to the given points, such that the number of crossings in the resulting drawing is as low as possible.

The goal of this project is to develop an algorithm in order to minimize the number of crossings of a graph for a given point set.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Methodischer Schwerpunkt, Technischer Schwerpunkt

Stabilität von Formalen Kontexten

Wir nennen einen formalen Kontext stabil, wenn sich beim Setzen oder Entfernen jedes Kreuzes die Größe des Begriffsverbandes nicht verkleinert. Untersuchen Sie Echtweltdaten auf Stabilität und untersuchen Sie, inwiefern sich die Stabilität als Bewertungsmaß für intrinsisch sinnvolle Daten eignet.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Technischer Schwerpunkt

Evaluierung von Graphzeichnungen

Ziel dieser Arbeit ist es, zu evaluieren, welche “weichen” Kriterien für Graphzeichnungen in der Praxis wie stark mit als “schön” wahrgenommenen Zeichnungen korellieren. Außerdem soll untersucht werden, inwieweit die “wichtigen” Kriterien sich beim Zeichnen von Graphen und Ordnungsdiagrammen unterscheiden.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Technischer Schwerpunkt

Author Identification based on Paper Citations

Several venues use the double-blind review process to evaluate submitted research articles. We would like to understand how the citations used in the new paper give access to the identity of the anonymous author(s). An important part of your work would be the evaluation of previously proposed techniques [1] on new raw [2] or processed [3] datasets. Of course, there is also the possibility to apply newer approaches and your own ideas.
Most (if not all) of the programming will be done in Python.

Inquiries: Tobias Hille

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Technischer Schwerpunkt

Sanity Checks for Conceptual Views on Neural Networks

Conceptual views provide a new method to interprete the latent representations of a neural network. In this work, you compare the sensitivity of conceptual views to weight randomizations for different architectures.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit

Conceptual View Plug-in for BibSonomy

In this work, you implement a plug-in for BibSonomy that generates a conceptual view diagram based on pre-defined tags. The diagram should be displayed in a nicely drawn and interactive manner.

Informationen: Johannes Hirth

Kategorien: Allgemein, Methodischer Schwerpunkt, Technischer Schwerpunkt

Identification of Ordinal Motifs

A novel method to automatically generate explanations of ordinal data structures employs the identification of ordinal motif. This is in general a NP-complete problem. In this work, you investigate if there are more efficient methods for the identification of specific classes of ordinal motifs.

Informationen: Johannes Hirth

Kategorien: Allgemein, Technischer Schwerpunkt

Investigate Formal Conceptual Views in Neural Networks

Mit Formal Conceptual Views ist ein neues Modell zur Erklärung von Neuralen Netzwerken vorgestellt worden. Ziel dieser Arbeit ist es die Methode auf weitere Modelle und Daten Domänen anzuwenden und die Formal Conceptual Views mit weiteren Methoden der symbolischen Wissensverarbeitung zu analysieren.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Intrinsic Triangulation of Loss Landscapes of Neural Networks

Recent work investigating geometry and topology of loss landscapes of neural networks revealed interesting properties regarding connectivity of clusters of local minima [1], [2]. In this work you will try to apply advances in computation intrinsic triangulation for 3d rendering [3] towards those surfaces (or reasonable hyperplane projections). One possible motivation for this is the change for an ability to construct geodesic paths on the constructed approximation.
Most (if not all) of the programming will be done in Python.

Inquiries: Tobias Hille

Kategorien: Allgemein, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Extracting Hypergraphs from Traffic Networks

Hypergraph datasets are well known in the context of author networks and knowledge graphs. However, hypergraphs can also be found in other domains, such as traffic networks. In this work, you should search for existing datasets from this domain and provide tooling to collect data from public web endpoints. A second part will deal with characterising different ways of interpreting and formatting the data as hypergraphs.
Most (if not all) of the programming will be done in Python.

Inquiries: Tobias Hille

Kategorien: Allgemein, Bachelorarbeit, Technischer Schwerpunkt

Core Numbers in Bipartite Networks

Core numbers are efficient valuations for nodes in networks. They are a measure to describe the structural integration of nodes. In this work, you should characterize and study core numbers for bipartite graphs.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit

Community Detection in WikiData zur Datensatzgenerierung

Knowlegde Graphs wie WikiData enthalten sehr viel Wissen, das im Bereich der künstlichen Intelligenz in vielen Anwendungen eingesetzt werden kann. Der Umfang an Informationen ist aber auch ein Problem für viele Anwendungen. Ihre Aufgabe besteht darin, Methoden der Community Detection in sozialen Netzwerken auf die Struktur von WikiData zu übertragen. Des Weiteren sollen Sie untersuchen, wie diese Methoden genutzt werden können, um kleinere Teil-Datensätze aus WikiData zu extrahieren.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Logische Repräsentationen für Skalenmaße

Eine Methode der Datenskalierung in der Formalen Begriffsanalyse sind Skalenmaße. Das Skalenmaß-Framework bietet eine kanonische Repräsentation für jede mögliche Skalierung. Diese Repräsentation ist aber nicht gut im Sinne der Interpretierbarkeit der Attribute. Um dieses Problem zu lösen, gibt es eine Interpretation der kanonischen Attribute mittels konjunktiv verknüpfter Attribute des Originaldatensatzes. In dieser Arbeit sollen Sie weitere logische Repräsentation erarbeiten und miteinander auf deren Interpretierbarkeit, Ausdrucksstärke und Berechenbarkeit vergleichen.

Informationen: Johannes Hirth

Kategorien: Allgemein, Methodischer Schwerpunkt, Technischer Schwerpunkt

Heuristiken für das Sugiyama-Framework

Das Sugiyama Framework ist ein Framework für die automatische Generierung von Zeichnungen von Graphen und Netzwerken. Dabei müssen mehrere NP-schwere Probleme mit Hilfe von Heuristiken gelöst werden.

Das Ziel dieses Projektes ist es, die wichtigsten Heuristiken aufzuarbeiten und diese miteinander, sowie (wo möglich) mit einer exakten Lösung der Probleme zu vergleichen. Dafür soll eine User-Studie durchgeführt werden.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Technischer Schwerpunkt

Weitere Themen auf Nachfrage.

Aufgabenstellung und Termin

Nach Absprache mit der/dem jeweiligen Betreuer*in. Je nach Thema kann die Aufgabe in Kleingruppen oder einzeln bearbeitet werden.

Projektvorbesprechung

Montag, 17.4.2023, 16.00 Uhr in Raum 0445/E.
Bei Interesse können Sie auch gerne vorab die/den jeweiligen Betreuer*in ansprechen.

Vorkenntnisse

Informatik Grundstudium

Angesprochener Hörer*innenkreis

Informatik Bachelor und Master, Math. NF Inf. Hauptstudium

Umfang

6 oder 12 Credits im Bachelor, bzw. 8 Credits im Master

Leistungsnachweis

Implementierung, schriftliche Ausarbeitung und zwei Vorträge (bei 6 Credits 20 min, bei 8/12 Credits 30 min, jeweils zzgl. ca 15 min Diskussion)

Veranstalter*in

Prof. Dr. Gerd Stumme, Dominik Dürrschnabel, M.Sc., Tobias Hille, M.Sc., Johannes Hirth, M.Sc.

Ablauf

In der Regel sollte die Projektarbeit mit Semesterbeginn begonnen werden. Nach 4-6 Wochen findet eine Zwischenpräsentation statt, in der der Stand der Projektarbeit vorgestellt wird. In der Regel in der ersten Vorlesungswoche des folgenden Semesters werden dann die Endergebnisse vorgestellt. Eine kurze Beschreibung der Arbeit (5 Seiten) ist 3 Tage vor dem Vortrag einzureichen.

Eine Woche nach der Annahme des Themas gibt die/der Studierende eine einseitige Beschreibung der Aufgabe, sowie einen Arbeitsplan für das Semester ab. Zur besseren Koordination und Kommunikation wird erwartet, dass die/der Studierende bei einem 6(8-12) Credits-Projekt regelmäßig an einem (zwei) Tagen in der Softwarewerkstatt anwesend ist. Der genaue Tag ist in Absprache mit der/m Betreuer*in festzulegen.

Als Richtlinie für die Erstellung einer guten Ausarbeitung wird das Buch

Markus Deininger and Horst Lichter and Jochen Ludewig and Kurt Schneider. Studien-Arbeiten: ein Leitfaden zur Vorbereitung, Durchführung und Betreuung von Studien-, Diplom- Abschluss- und Doktorarbeiten am Beispiel Informatik. 5. Auflage. vdf Hochschulverlag, Zürich, 2005.

empfohlen, welches in der Bibliothek im Semesterapparat des Fachgebiets Wissensverarbeitung ausliegt, und welches auch in einigen Exemplaren ausleihbar ist. Wir empfehlen die Anschaffung dieses Buchs (9,50 €), da es Sie bis zur Masterarbeit (und weiter) begleiten kann.

Alle verwendeten Referenzen sind zusätzlich zum Literaturverzeichnis der Ausarbeitung in BibSonomy einzugeben, mit den Tags “projekt kde < laufendes Semester in der Form ss22 bzw. ww22 > ” und weiteren sinnvollen Tags.