Projekt Knowledge Discovery and Data Engineering Sommersemester 2024 – KDE – FB 16

Projekt Knowledge Discovery and Data Engineering

Dieses Projekt lässt sich als Bachelor- und als Masterprojekt anrechnen.

Das Fachgebiet Wissensverarbeitung forscht an der Entwicklung von Methoden zur Wissensentdeckung und Wissensrepräsentation (Approximation und Exploration von Wissen, Ordnungsstrukturen in Wissen, Ontologieentwicklung) in Daten als auch in der Analyse von (sozialen) Netzwerkdaten und damit verbundenen Wissensprozessen (Metriken in Netzwerken, Anomalieerkennung, Charakterisierung von sozialen Netzwerken). Dabei liegt ein Schwerpunkt auf der exakten algebraischen Modellierung der verwendeten Strukturen und auf der Evaluierung und Neuentwicklung von Netzwerkmaßen. Neben der Erforschung von Grundlagen in den Gebieten Ordnungs- und Verbandstheorie, Beschreibungslogiken, Graphentheorie und Ontologie werden auch Anwendungen – bspw. in sozialen Medien sowie in der Szientometrie – erforscht.

In diesem Umfeld bietet das Fachgebiet regelmäßig eine Reihe von Projektthemen an. Die einzelnen Themen sind im Folgenden beschrieben:

Implementierung von Algorithmen für die Ordnungsdimension

Es gibt diverse Algorithmen zur Berechnung der Ordnungsdimension. In diesem Projekt implementieren Sie diese und evaluieren ihre Qualität im Hinblick auf Laufzeit und Speicherplatzbedarf.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Technischer Schwerpunkt

Temporal Ordinal Motifs in Topic Models

Topic models are, often, dimension reduction techniques for large corpora of textual documents. A central aspect to these models is that they allow for text based explanations of the dimensions in the reduced space. A novel technique, called ordinal motifs, interpret and visualize these dimension hierarchically with respect to (ordinal) substructures of standard shape. With your work, you extent this technique towards ordinal motifs over time, develop visualization techniques, and show their applicability in a practical setting.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Ordinal Motifs in Hierarchical Topic Models

Topic models are, often, dimension reduction techniques for large corpora of textual documents. A central aspect to these models is that they allow for text based explanations of the dimensions in the reduced space. A novel technique, called ordinal motifs, interpret and visualize these dimension hierarchically with respect to (ordinal) substructures of standard shape. With your work, you extent this technique towards hierarchical topic models, define hierarchical motif structures, develop visualization techniques, and show their applicability in a practical setting.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Network Motifs in Topic Flow Networks

In scientometrics, scientific collaboration is often analyzed by means of co-authorships. An aspect which is often overlooked and more difficult to quantify is the flow of expertise between authors from different research topics, which is an important part of scientific progress. With the Topic Flow Network (TFN) a graph structure for the analysis of research topic flows between scientific authors and their respective research fields was proposed. With your work, you identify and interpret substructures that are integral to this network.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Technischer Schwerpunkt

Formal Concept Analysis mit Attribut und Objektordnungen

In dieser Arbeit untersuchen Sie, inwiefern sich die Theorie der formalen Begriffsanalyse auf den Fall übertragen lässt, dass wir eine lineare Ordnung auf den Attributen und den Objekten vorliegen haben.

Das Ziel ist es, die in der FCA üblichen Ideen (Begriffe, Implikationen etc.) auf solche Datensätze zu übertragen und die Theorie mit Echtwelt-Datensätzen zu evaluieren.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Technischer Schwerpunkt

Invariants of Formal Contexts

It is not easy to recognise whether two (reduced) formal contexts are isomorphic, or given a set of formal contexts, how many different formal contexts are contained there. One aid are invariants, i.e. derived quantities, that do not depend on the concrete representation of the formal context. Simple examples are the number of attributes of the context or the number of objects of the context. If two contexts have different values for an invariant, the contexts are not isomorphic. The aim is to examine formal contexts with regard to possible invariants. Formal contexts can be represented as bipartite graphs, therefore, known graph invariants in particular are to be considered.

Inquiries: Tobias Hille

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt

Detecting Graphs in Images

The project aims to develop a machine learning model that can detect (simple) graphs in images. This involves not only an extensive literature review but also gathering useful training data. Moreover, we need to train the model to recognize and segment images containing graphs. The project will use image classification algorithms and techniques to achieve this goal. Completing individual parts may already be enough for a successful conclusion. You will build upon work done by previous participants.
Most (if not all) of the programming will be done in Python.

Inquiries: Tobias Hille

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Generators for and Properties of random bipartite Graphs

In this project, we will conduct a practical investigation into the random generation of bipartite graphs. We will build upon previous works in the field and analyze the properties of the produced distributions. Additionally, we will simulate real-world data, potentially using approaches like GAN training.
Most (if not all) of the programming will be done in Python.

Inquiries: Tobias Hille

Kategorien: Allgemein, Bachelorarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Python-Bindings for fcaR

The package fcaR is a software to perform various computations for formal concept analysis in R. Thereby, the algorithms are implemented in C. The goal of this project is to develop python bindings for this C-backend, such that the package can be used in python without relying on R.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Technischer Schwerpunkt

Implications in Conceptual Scaling

One way of computing dependencies in data set are implications. To extract implications from data sets, we first have to interpret the data on the ordinal level via a method called conceptual scaling. The implication that we find in the scaled data set can have two origins. The first are dependencies in the many-valued data set and the second are artifacts from the scaling process. With your work you develop a method to analyze these sets of implications separately.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Technischer Schwerpunkt

Decomposition of Concept Lattices

Conceptual structures are great hierarchical tools to analyze complex relations between data point. Recent approaches focus on identifying ordinal sub-structures of concept lattices that have specific shape, e.g., chains, cubes, cycles etc. The sub-structures are then used to derive highler level relations between data point or to explain the hierarchical structure. With your work, you study how this approach can be used to decompose concept lattices into sub-structures.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Technischer Schwerpunkt

Crossing-Minimal Point-Set Embedding

This task focuses on minimizing crossings on a given set of points. The input therefore consists of a graph and a set of points (at least as many as vertices of the graph). The goal is to assign the vertices of the graph to the given points, such that the number of crossings in the resulting drawing is as low as possible.

The goal of this project is to develop an algorithm in order to minimize the number of crossings of a graph for a given point set.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Methodischer Schwerpunkt, Technischer Schwerpunkt

Stabilität von Formalen Kontexten

Wir nennen einen formalen Kontext stabil, wenn sich beim Setzen oder Entfernen jedes Kreuzes die Größe des Begriffsverbandes nicht verkleinert. Untersuchen Sie Echtweltdaten auf Stabilität und untersuchen Sie, inwiefern sich die Stabilität als Bewertungsmaß für intrinsisch sinnvolle Daten eignet.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Technischer Schwerpunkt

Evaluierung von Graphzeichnungen

Ziel dieser Arbeit ist es, zu evaluieren, welche “weichen” Kriterien für Graphzeichnungen in der Praxis wie stark mit als “schön” wahrgenommenen Zeichnungen korellieren. Außerdem soll untersucht werden, inwieweit die “wichtigen” Kriterien sich beim Zeichnen von Graphen und Ordnungsdiagrammen unterscheiden.

Informationen: Dominik Dürrschnabel

Kategorien: Allgemein, Technischer Schwerpunkt

Conceptual View Plug-in for BibSonomy

In this work, you implement a plug-in for BibSonomy that generates a conceptual view diagram based on pre-defined tags. The diagram should be displayed in a nicely drawn and interactive manner.

Informationen: Johannes Hirth

Kategorien: Allgemein, Methodischer Schwerpunkt, Technischer Schwerpunkt

Web Framework for Interactive Visualizations of Hierarchical Data Structures

Visualizations of relationships among properties often rely on hierarchical structures that depict various combinations of properties. A problem of such structures is that they are often misinterpreted by inexperienced users, since closeness and similarity only arise through given edges and not through spatial proximity. Therefore it is necessary to support inexperienced users with possibilities for interaction. The goal of this project is to further develop a web framework for interactive visualization of hierarchical structures.

Informationen: Johannes Hirth

Informationen: Viktoria Horn (Fachgebiet GeDIS)

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Intrinsic Triangulation of Loss Landscapes of Neural Networks

Recent work investigating geometry and topology of loss landscapes of neural networks revealed interesting properties regarding connectivity of clusters of local minima [1], [2]. In this work you will try to apply advances in computation intrinsic triangulation for 3d rendering [3] towards those surfaces (or reasonable hyperplane projections). One possible motivation for this is the change for an ability to construct geodesic paths on the constructed approximation.
Most (if not all) of the programming will be done in Python.

Inquiries: Tobias Hille

Kategorien: Allgemein, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Core Numbers in Bipartite Networks

Core numbers are efficient valuations for nodes in networks. They are a measure to describe the structural integration of nodes. In this work, you should characterize and study core numbers for bipartite graphs.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit

Weitere Themen auf Nachfrage.

Aufgabenstellung und Termin

Nach Absprache mit der/dem jeweiligen Betreuer*in. Je nach Thema kann die Aufgabe in Kleingruppen oder einzeln bearbeitet werden.

Projektvorbesprechung

Montag, 22.4.2024, 16.00 Uhr in Raum 0445/E.
Bei Interesse können Sie auch gerne vorab die/den jeweiligen Betreuer*in ansprechen.

Vorkenntnisse

Informatik Grundstudium

Angesprochener Hörer*innenkreis

Informatik Bachelor und Master, Math. NF Inf. Hauptstudium

Umfang

6 oder 12 Credits im Bachelor, bzw. 8 Credits im Master

Leistungsnachweis

Implementierung, schriftliche Ausarbeitung und zwei Vorträge (bei 6 Credits 20 min, bei 8/12 Credits 30 min, jeweils zzgl. ca 15 min Diskussion)

Veranstalter*in

Prof. Dr. Gerd Stumme, Mohammad Abdulla, M.Sc. M.Sc., Dominik Dürrschnabel, M.Sc., Tobias Hille, M.Sc., Johannes Hirth, M.Sc.

Ablauf

In der Regel sollte die Projektarbeit mit Semesterbeginn begonnen werden. Nach 4-6 Wochen findet eine Zwischenpräsentation statt, in der der Stand der Projektarbeit vorgestellt wird. In der Regel in der ersten Vorlesungswoche des folgenden Semesters werden dann die Endergebnisse vorgestellt. Eine kurze Beschreibung der Arbeit (5 Seiten) ist 3 Tage vor dem Vortrag einzureichen.

Eine Woche nach der Annahme des Themas gibt die/der Studierende eine einseitige Beschreibung der Aufgabe, sowie einen Arbeitsplan für das Semester ab. Zur besseren Koordination und Kommunikation wird erwartet, dass die/der Studierende bei einem 6(8-12) Credits-Projekt regelmäßig an einem (zwei) Tagen in der Softwarewerkstatt anwesend ist. Der genaue Tag ist in Absprache mit der/m Betreuer*in festzulegen.

Als Richtlinie für die Erstellung einer guten Ausarbeitung wird das Buch

Markus Deininger and Horst Lichter and Jochen Ludewig and Kurt Schneider. Studien-Arbeiten: ein Leitfaden zur Vorbereitung, Durchführung und Betreuung von Studien-, Diplom- Abschluss- und Doktorarbeiten am Beispiel Informatik. 5. Auflage. vdf Hochschulverlag, Zürich, 2005.

empfohlen, welches in der Bibliothek im Semesterapparat des Fachgebiets Wissensverarbeitung ausliegt, und welches auch in einigen Exemplaren ausleihbar ist. Wir empfehlen die Anschaffung dieses Buchs (9,50 €), da es Sie bis zur Masterarbeit (und weiter) begleiten kann.

Alle verwendeten Referenzen sind zusätzlich zum Literaturverzeichnis der Ausarbeitung in BibSonomy einzugeben, mit den Tags “projekt kde < laufendes Semester in der Form ss22 bzw. ww22 > ” und weiteren sinnvollen Tags.