Ausgewählte Themen der Wissensverarbeitung (Seminar)

Themen:

Das Seminar behandelt verschiedene Methoden zur Wissensentdeckung und Wissensrepräsentation in Daten, insbesondere zur Analyse von (sozialen) Netzwerken. Hierbei betrachten wir u.a.: Lernverfahren, Metriken in Netzwerken, Anomalieerkennung, Charakterisierung von sozialen Netzwerken, Approximation und Exploration von Wissen, Ordnungsstrukturen in Wissen, Ontologieentwicklung. 

Moodlekurs:

Die Organisation des Seminars findet über den Moodlekurs statt. Dort werden auch die Themen ausgewählt und die Ausarbeitungen abgegeben.

Angesprochener HörerInnenkreis:

Inf. 4. Sem., Math. NF Inf. Hauptfach; Master Informatik. Für beide Zielgruppen liegen Seminarthemen vor.

Vorkenntnisse:

Informatik Grundstudium für Einbringung in den Bachelor; abgeschlossener Bachelor für Einbringung in den Master.

Umfang:

2 SWS

Leistungsnachweis:

Hausarbeit
Referat / Präsentation

Veranstalter:

Prof. Dr. Gerd Stumme, Master Math. Dominik Dürrschnabel, Master Math. Maximilian Felde, Dr. Tom Hanika, Master Math. Maren Koyda, Master Inform. Bastian Schäfermeier, Master Math. Maximilian Stubbemann

Ablauf:

Gefordert ist eine wissenschaftliche Auseinandersetzung mit dem Thema, die insbesondere den Bezug auf Originalliteratur einschliesst. Diese kann ggf. durch graue Literatur ergänzt, jedoch keinesfalls ersetzt werden. Es wird zu Beginn pro Thema jeweils ein Artikel ausgegeben, der durch den / die Seminarteilnehmerin im Laufe des Semesters durch weitergehende Literatur ergänzt wird. Die Auswahl der weiteren Literatur trifft der / die Seminarteilnehmer/in in Absprache mit dem/der Betreuer/in.

Eine Abmeldung vom Seminar ist maximal eine Woche nach Ausgabe des Themas möglich, um dann anderen Studierenden die Möglichkeit der Teilnahme zu geben.

Vier bis sechs Wochen vor dem geplanten Vortrag , stellt der Teilnehmer seine Auswahl dem/der Betreuer/in vor (vorherige Rücksprachen sind ausdrücklich erlaubt). Diese Auswahl geht in die Endnote ein.

Die Ausarbeitung ist bis zum 29.06.2020 abzugeben. Sie umfasst 12 Seiten (Bachelor) und 16 Seiten (Master). Sie muss mittels LaTeX erstellt worden sein unter Nutzung des Springer LNCS Formats.

Zusätzlich sind bis bis zum 29.06.2020 abzugeben:

    • eine einseitige Zusammenfassung (die allen Teilnehmern ausgehändigt wird)
    • der Foliensatz

Alle drei Dateien sind als PDF Dateien abzugeben. Bündeln Sie die Dateien zu einem Zip-Archiv. Die Abgabe erfolgt über den Moodlekurs. Bitte beachten Sie, dass eine Abgabe nach dem 29.06.2020 nicht mehr möglich ist.

Die Vorträge werden am 01.07.2020 stattfinden.

Vorherige Absprachen mit dem/der Betreuer/in sind ausdrücklich erlaubt. Alle verwendeten Referenzen sind zusätzlich zum Literaturverzeichnis der Ausarbeitung in BibSonomy einzugeben, mit den Tags „kde“, „seminar“, „2020“, „wissensverarbeitung“ und weiteren sinnvollen Tags.

Die Vortragsdauer beträgt verbindlich 30 Minuten, nach dem Vortrag besteht Gelegenheit zur Diskussion. Wir empfehlen, den Vortrag vorher vor Zuhörern zu üben. Der Vortrag (inkl. Folien und Abstract) geht mit 40 % in die Endnote ein, die Ausarbeitung zusammen mit den Quellen geht mit 60 % ein.

Als Richtlinie für die Erstellung einer guten Seminararbeit (inkl. Vortrag und Ausarbeitung) wird das Buch

    • Markus Deininger, Horst Lichter, Jochen Ludewig und Kurt Schneider. Studien-Arbeiten: ein Leitfaden zur Vorbereitung, Durchführung und Betreuung von Studien-, Diplom- Abschluss- und Doktorarbeiten am Beispiel Informatik. 5. Auflage. vdf Hochschulverlag, Zürich, 2005. BibSonomy Eintrag öffnen

empfohlen, welches in der Bibliothek im Semesterapparat des Fachgebiets Wissensverarbeitung ausliegt, und welches auch in einigen Exemplaren ausleihbar ist. Wir empfehlen die Anschaffung dieses Buchs (9,50 €), da es Sie bis zur Masterarbeit (und weiter) begleiten kann. Die Benotung der Seminararbeit erfolgt in Anlehnung an das dort auf Seite 77 angegebene Schema, angepasst auf die Erfordernisse einer Seminararbeit.

Themen

Im Folgenden finden sie die möglichen Themen. Falls sie sich für ein Thema entschieden haben, tragen Sie sich für das Thema im Moodlekurs ein und kontaktieren Sie den/die entsprechenden Betreuer/in per Mail. Falls eine Eintragung für das jeweilige Thema nicht mehr möglich ist, ist es bereits vergeben.

Betreut von Maximilian Stubbemann (stubbemann@cs.uni-kassel.de):

    • Inductive Representation Learning on Large Graphs  [1]. Graph Neural Networks (GNN) sind ein gängiges Mittel um Klassifikationsaufgaben in Netzwerken zu lösen. Ziel dieser Arbeit soll es sein, das GNN Framework GraphSage vorzustellen, Anwendungen zu zeigen und alternative GNNs zu beschreiben. Es soll dabei insbesondere darauf eingegangen werden, wie GNNS im Alllgemeinen und GraphsSage im speziellen gängige Netzarchitekturen mit der Graphenstruktur kombinieren. Wie kann GraphSage genutzt werden um 1.) eine konkrete Klassifikationsaufgabe direkt zu lösen, 2.) um allgemeine Knoteneinbettungen zu generieren? Als weitere Aufgabe sollen weitere GNN Modelle vorgestellt und mit GraphSage verglichen werden.
    • CLANN: Concept Lattice-based Artificial Neural Network for supervised classification [2] Beschreiben Sie den im Paper vorgestellten Ansatz zur Erstellung neuronaler Netze. Wie wird die Struktur eines Begriffverbandes zur Generierung der Netzarchitektur genutzt? Wie wird aus der Struktur eines Begriffsverbandes eine Netzarchitektur generiert? Welche Klassifikationsaufgaben werden mittels demresultierenden neuronalen Netz wie gelöst? In eigener Recherche sollen weitere Methoden zur Klassifikation in formalen Kontexten im Allgemeinen und mittels neuronaler Netze im speziellen erarbeitet werden.
    • Paper2vec: Combining Graph and Text Information for Scientific Paper Representation  [3] Beschreiben Sie wie das vorliegende Paper Dokumenteneinbettungsverfahren mit Knoteneinbettungsmethoden kombiniert um wissenschaftliche Publikation durch niedrigdimensionale Vektoren darzustellen. Die Vorstellung der genutzten Techniken für Dokumenteinbettungen (doc2Vec) und Knoteneinbettungen (Deepwalk) ist dabei ein wichtiger Teil der Seminararbeit.
    • ADAM: A Method For Stochastic Optimization  [4] ADAM ist eine Methode zur stochastischen Optimierung und ist heutzutage ein gängiges Verfahrung zur Gewichtsoptimierung in neuronalen Netzen. Ziel dieser Arbeit soll es sein, das Optimierungsverfahren im Allgemeinen vorzustellen und konkret darauf einzugehen, wie es im Kontext neuronaler Netze genutzt werden kann. Dabei soll auch auf das „Standardverfahren“ des stochastischen Gradientenabstieg eingegangen werden. In wiefern unterscheidet ADAM sich von anderen gängigen Optimierungsverfahren in diesem Bereich?
    • Discovery of optimal factors in binary data via a novel method of matrix decomposition  [5] Das Paper beschreibt eine Möglichkeit, eine Binärmatrix in ein Produkt zweier Binärmatritzen zu zerlegen. Beschreiben Sie das vorgestelle Zerlegungsverfahren. Wie wird in dem Paper formale Begriffsanalyse zur Findung der Faktoren genutzt? Gehen Sie hier auch auf die theoretischen Resultate ein und geben Sie die Beweisideen in eigenen Worten wieder. Erarbeiten Sie außerdem in eigener Recherche weitere Ansätze zur Zerlegung von Binärmatritzen.

Betreut von Maren Koyda (koyda@cs.uni-kassel.de):

    • Reducing the Representation Complexity of Lattice-Based Taxonomies [6] Die vorliegende Arbeit beschreibt die Stabilität als Maß auf formalen Begriffen. Erläutern Sie dieses Maß sowie seine Anwendungsmöglichkeiten und vergleichen Sie es mit zwei anderen Maßen aus weiterführender Literatur.
    • Clustering bipartite graphs in terms of approximate formal concepts and sub-contexts [7] Beschreiben sie das im Paper vorgestellte Vorgehen zum Umgang mit verrauschten Daten sowie den Zusammenhang zwischen Graphen und Formaler Begriffsanalyse. Vergleichen sie den Ansatz mit einer weiteren Möglichkeit zur Vereinfachung von Begriffsverbänden.

Betreut von Maximilian Felde (felde@cs.uni-kassel.de):

    • Finding the Number of Clusters in a Dataset: An Information-Theoretic Approach [8] Clusterverfahren werden verwendet um Gruppen ähnlicher Objekte in Daten zu finden. Ein Problem dabei ist, dass die Anzahl der zu findenden Gruppen oft als Parameter benötigt wird, der im Allgemeinen nicht vorher bekannt ist. Es gibt verschiedene Ansätze damit umzugehen, beispielsweise verschiedene Modelle mit unterschiedlichen Anzahlen Cluster zu erzeugen und das „beste“ auszuwählen. Diese Arbeit beschreibt einen Informationstheoretischen Ansatz zur Identifikation der Anzahl Cluster in einem Datensatz. Fassen Sie die Ergebnisse dieser Veröffentlichung zusammen und vergleichen Sie diesen Ansatz mit anderen verbreiteten Ansätzen zum Bestimmen der Clusteranzahl. Ziehen Sie dazu weitere Literatur heran.
    • Random Subspaces [9][10] Das Paper beschreibt die Random Subspace Methode zur Verbesserung der Klassifikationsleistung von Entscheidungsbäumen. Beschreiben Sie die Random Subspace Methode im Kontext des Papers. Suchen Sie sich einen Aspekt des Papers heraus, der Sie interessiert (beispielsweise die Verbindung zu ’stochastic discrimitation theory‘, eine Gegenüberstellung mit anderen Ensemble Learning Methoden, die Eigenschaften der ‚combination function‘ oder ein Überblick über die Verwendung der Methode in neueren Verfahren) und bearbeiten Sie diesen tiefergehend. Suchen Sie sich hierzu 2-3 weitere verwandte Arbeiten heraus.
    • The Rand Index and Modern Methods  [11][12] Ein Problem bei Clusterverfahren ist, dass es schwierig ist die Güte der Verfahren sowie die gewonnenen Clusterings zu vergleichen. In dem Paper ‚Objective Criteria for the Evaluation of Clustering Methods (1971)‘ geht Rand auf dieses Problem ein und schlägt ein Ähnlichkeitsmaß zum Vergleich von Clusterings vor, um verschiedene Clusterverfahren vergleichen zu können. Beschreiben Sie die Problematik und den Ansatz von Rand. Suchen Sie außerdem weitere Literatur zu modernen Varianten bzw. Alternativen heraus und vergleichen Sie diese mit dem Ansatz von Rand.
    • Clustering Ensembles [13] Ensemble Methoden sind weit verbreitet für die Behandlung von Klassifikationsproblemen, z.B. in Form von Random Forests. Die Idee ist, mehrere Klassifikatoren zu verwenden und die Ergebnisse zu kombinieren um eine Verbesserung der Klassifikationsleistung zu erreichen. Ähnliche Ansätze gibt es auch für Clusterverfahren. Das vorliegende Paper führt sogenannte „Cluster Ensembles“ ein. Beschreiben Sie das Problem sowie den vorgeschlagenen Lösungsansatz und stellen Sie eines der Verfahren im Detail vor. Suchen Sie sich anschließend einen Aspekt des Papers aus (z.B. die Verbindung zu ‚consensus classification‘, eine der beschriebenen Anwendungen, neue Weiterentwicklungen der Methode oder eine genauere betrachtung der ‚average normalized mutual information‘) den Sie tiefergehend untersuchen. Ziehen Sie dazu weitere Literatur heran.

Betreut von Dominik Dürrschnabel (duerrschnabel@cs.uni-kassel.de):

    • Linear Time Transitive Orientation of Comparability Graphs  [14]. Aufgabenstellung: Die vorliegende Arbeit beschreibt wie Graphen einer bestimmten Graphenklasse in Linearzeit in Module zerlegt werden können. Diese Module können dazu genutzt werden, diesen Graphen ebenfalls in Linearzeit transitiv zu orientieren. Erklären und beweisen Sie den daraus entstehenden Algorithmus mithilfe von weiteren, selbst ausgewählten Veröffentlichungen.
    • Binary Factor Analysiswith Help of Formal Concepts [15]. Aufgabenstellung: Die vorliegende Arbeit beschreibt einen Algorithmus zur Zerlegung von Binären Datensätze in kleinere, ebenfalls binäre Datensätze. Die so entstehenden Datensätze können genutzt werden um den ursprünglichen Datensatz besser zu verstehen, oder auch zur Kompression großer Datensätze. Erklären Sie den Algorithmus und ziehen Sie dazu weitere Literatur heran. Vorkenntnisse in Formaler Begriffsanalyse sind hilfreich.

Betreut von Johannes Hirth (hirth@cs.uni-kassel.de):

    • A Survey on Implicational Bases  [16]. Aufgabenstellung: Implikationen sind ein häufig genutzter Formalismus zur Analyse von Datensätzen und werden zum Beispiel in der Klassifikation eingesetzt. Die Menge aller solcher Implikationen (Theorie) einer Attribute Domain kann exponentiell in der Anzahl der Attribute werden und ist deshalb zu groß. Deshalb berechnet man Basen der Theorie als minimale Repräsentation aus. Beispiel sind die canonical-base, canonical-direct-basis, unit bases, usw. Erstellen eine Übersicht verschiedener solcher Basen und vergleichen Sie diese. Gehen Sie dabei auch auf die Berechnung der Basen ein.