Projekt Knowledge Discovery and Data Engineering

Dieses Projekt lässt sich als Bachelor- und als Masterprojekt anrechnen.

Das Fachgebiet Wissensverarbeitung forscht an der Entwicklung von Methoden zur Wissensentdeckung und Wissensrepräsentation (Approximation und Exploration von Wissen, Ordnungsstrukturen in Wissen, Ontologieentwicklung) in Daten als auch in der Analyse von (sozialen) Netzwerkdaten und damit verbundenen Wissensprozessen (Metriken in Netzwerken, Anomalieerkennung, Charakterisierung von sozialen Netzwerken). Dabei liegt ein Schwerpunkt auf der exakten algebraischen Modellierung der verwendeten Strukturen und auf der Evaluierung und Neuentwicklung von Netzwerkmaßen. Neben der Erforschung von Grundlagen in den Gebieten Ordnungs- und Verbandstheorie, Beschreibungslogiken, Graphentheorie und Ontologie werden auch Anwendungen – bspw. in sozialen Medien sowie in der Szientometrie – erforscht.

In diesem Umfeld bietet das Fachgebiet regelmäßig eine Reihe von Projektthemen an. Die einzelnen Themen sind im Folgenden beschrieben:

Invarianten für Formale Kontexte

Es ist nicht einfach zu erkennen ob zwei (reduzierte) Formale Kontexte isomorph sind, bzw. gegeben eine Menge Formaler Kontexte zu erkennen wie viele verschiedene Formale Kontexte dort enthalten sind. Ein Hilfsmittel sind Invarianten, also abgeleitete Größen, die nicht von der konkreten Darstellung des Formalen Kontexts abhängen, beispielsweise die Anzahl der Attribute des Kontexts oder auch die Anzahl der Begriffe des Kontexts. Haben zwei Kontexte unterschiedliche Werte für eine Invariante, so sind die Kontexte nicht isomorph. Ziel ist es Formale Kontexte hinsichtlich möglicher Invarianten zu untersuchen. Formale Kontexte können als bipartite Graphen dargestellt werden, daher sollen insbesondere bekannte Graph-Invarianten in Betracht gezogen werden.

Informationen: Maximilian Felde

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt

Begriffliches Skalieren von Datensätzen

Begriffliches Skalieren ist eine Methode der Formalen Begriffsanalyse um einen mehrwertigen Kontext (d.h. einen tabellarischen Datensatz) in einen (einwertigen) formalen Kontext zu überführen. Dazu wurde am Fachgebiet eine Anwendung entwickelt, die grundlegende Funktionalität zum Begrifflichen Skalieren bereitstellt. Ziel des Projekts ist es diese Anwendung weiter zu entwickeln. Die Programmiersprache ist Clojurescript.

Informationen: Maximilian Felde

Kategorien: Allgemein, Technischer Schwerpunkt

Eigenschaften von Knoteneinbettungen

In dieser Arbeit sollen verschiedene Einbettungsverfahren für Netzwerke dahingehend untersucht werden, inwiefern Eigenschaften wie „Nähe“ im Ko-Autorengraphen mit der Nähe in der Einbettung korrespondiert. Bei welchen Verfahren werden Nachbarn „nahe“ eingebettet? Korrespondiert die Pfadlänge von Knoten im Graphen zu ihrem Abstand im Graphen? Als weiterer Schritt soll hier untersucht werden, ob ein Klassifikator aus einem Graphen und einer Einbettung entscheiden kann, mit welchem Verfahren der Graph eingebettet wurde.

Informationen: Maximilian Stubbemann

Kategorien: Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Vergleich von bibliometrischen Datensätzen

Ziel dieser Arbeit ist es, mittels verschiedener Datenquellen Datensätze über die“Landschaft“ der KI-Forschenden zu erstellen und zu vergleichen. Dabei sollen auf der einen Seite bibliometrische Indikatoren herangezogen werden als auch die resultierenden Ko-Autoren mit Hilfe der sozialen Netzwerkanalyse untersucht werden.

Informationen: Maximilian Stubbemann

Kategorien: Bachelorarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Concept Neural Networks

Bei der Klassifikation in Graphen ist es üblich, mittels Graph Neuronalen Netzen (GNNs) die Struktur des Graphen zu nutzen, um die Klassifikation von Knoten zu verbessern. Ziel dieser Arbeit ist es, diesen Ansatz auf die Formale Begriffsanalyse zu übertragen indem die „Faltungsoperation“ anhand von Konzepten durchgeführt wird. Vergleichen Sie dieses Verfahren mit anderen Verfahren, die neuronale Netze basierend auf Begriffsverbänden nutzen!

Informationen: Maximilian Stubbemann

Kategorien: Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Ensemble Concept based Classification

Ein Problem der Klassifikation mit Formalen Begriffen ist die potentiell exponentielle Anzahl an Begriffen eines Datensatzes. Eine Strategie zur Verringerung der Anzahl sind Reduktionstechniken für Formale Kontexte. Untersuchen sie diese hinsichtlich der Klassifikations Performance ihrer Begriffe. Des weiteren untersuchen sie die Performance eines Ensembles aus mehreren reduzierten Kontexten durch unterschiedlichen Reduktionstechniken oder Parameter.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Feature Selectors for Concept based Classification

Ein Problem der Klassifikation mit Formalen Begriffen ist die potentiell exponentielle Anzahl an Begriffen eines Datensatzes. Vergleichen Sie verschiedene Maße und Selektionsmethoden aus dem Bereich der Formalen Begriffsanalyse hinsichtlich ihrer Performance als Feature Selector.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt

Reduktionstechniken in der Formalen Begriffs Analyse

Eine Problem für Algorithmen der Formalen Begriffsanalyse ist die Größe der Daten. In dieser Arbeit sollen verschiedene Techniken zur Größenreduktion oder Kompression zusammengetragen und gegenüber gestellt werden.

Informationen: Johannes Hirth

Kategorien: Allgemein, Bachelorarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Link Prediction als Suche der Nadel im Heuhaufen

Zur Evaluierung von Embeddingmodellen für Netzwerke ist es gängige Praxis, zu bewerten, inwiefern die generierten Vektorrepräsentierungen zum Erraten von vergessenen/zukünftigen Kanten genutzt werden. Das gängige Experimentiersetup legt hierbei jedoch meistens eine ausbalancierte Klassifizierungsaufgabe zu Grunde. In dieser Arbeit soll die Aufgabe als „Suche der Nadel im Heuhaufen“ betrachtet werden: Wenige zu findende tatsächliche Kanten sollen aus einer deutlich größeren Menge von „negativen Kanten“ gefunden werden.

Informationen: Maximilian Stubbemann

Kategorien: Bachelorarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

PCA auf formalen Kontexten

Principal Component Analysis dient dazu Datensätze zu vereinfachen. Hierbei wird eine große Menge an (möglicherweise) korrelierten Variablen in eine möglichst aussagekräftige kleinere Menge transformiert. Dieses Vorgehen soll auf formale Kontexte übertragen werden, um die ihre Merkmalsmenge einzuschränken.

Informationen: Maren Koyda

Kategorien: Allgemein, Bachelorarbeit, Masterarbeit, Methodischer Schwerpunkt, Technischer Schwerpunkt

Weitere Themen auf Nachfrage.

Aufgabenstellung und Termin

Nach Absprache mit der/dem jeweiligen Betreuer*in. Je nach Thema kann die Aufgabe in Kleingruppen oder einzeln bearbeitet werden.

Projektvorbesprechung

Montag, 9.11.2020, 16:15 Uhr online über https://www.kde.cs.uni-kassel.de/vorbesprechung

Vorkenntnisse

Informatik Grundstudium

Angesprochener Hörer*innenkreis

Informatik Bachelor und Master, Math. NF Inf. Hauptstudium

Umfang

6 oder 12 Credits im Bachelor, bzw. 8 Credits im Master

Leistungsnachweis

Implementierung, schriftliche Ausarbeitung und zwei Vorträge (bei 6 Credits 20 min, bei 8/12 Credits 30 min, jeweils zzgl. ca 15 min Diskussion)

Veranstalter*in

Prof. Dr. Gerd Stumme, Dr. Tom Hanika, Bastian Schäfermeier, M.Sc., Dominik Dürrschnabel, M.Sc., Johannes Hirth, M.Sc., Maren Koyda, M.Sc., Maximilian Felde, M.Sc., Maximilian Stubbemann, M.Sc.,

Ablauf

In der Regel sollte die Projektarbeit mit Semesterbeginn begonnen werden. Nach 4-6 Wochen findet eine Zwischenpräsentation statt, in der der Stand der Projektarbeit vorgestellt wird. In der Regel in der ersten Vorlesungswoche des folgenden Semesters werden dann die Endergebnisse vorgestellt. Eine kurze Beschreibung der Arbeit (5 Seiten) ist 3 Tage vor dem Vortrag einzureichen.

Eine Woche nach der Annahme des Themas gibt die/der Studierende eine einseitige Beschreibung der Aufgabe, sowie einen Arbeitsplan für das Semester ab. Zur besseren Koordination und Kommunikation wird erwartet, dass die/der Studierende bei einem 6(8-12) Credits-Projekt regelmäßig an einem (zwei) Tagen in der Softwarewerkstatt anwesend ist. Der genaue Tag ist in Absprache mit der/m Betreuer*in festzulegen.

Als Richtlinie für die Erstellung einer guten Ausarbeitung wird das Buch

Markus Deininger and Horst Lichter and Jochen Ludewig and Kurt Schneider. Studien-Arbeiten: ein Leitfaden zur Vorbereitung, Durchführung und Betreuung von Studien-, Diplom- Abschluss- und Doktorarbeiten am Beispiel Informatik. 5. Auflage. vdf Hochschulverlag, Zürich, 2005.

empfohlen, welches in der Bibliothek im Semesterapparat des Fachgebiets Wissensverarbeitung ausliegt, und welches auch in einigen Exemplaren ausleihbar ist. Wir empfehlen die Anschaffung dieses Buchs (9,50 €), da es Sie bis zur Masterarbeit (und weiter) begleiten kann.

Alle verwendeten Referenzen sind zusätzlich zum Literaturverzeichnis der Ausarbeitung in BibSonomy einzugeben, mit den Tags „projekt kde < laufendes Semester in der Form ss20 bzw. ww20 > “ und weiteren sinnvollen Tags.