Bachelor- und Masterarbeiten – KDE – FB16

Themen

Viele Aufgabenstellungen beschäftigen sich mit der Implementierung verschiedener Komponenten in eines der Websysteme die am Fachgebiet betrieben werden oder mit der Analyse der in solchen System vorhandenen Daten. Darüber hinaus werden weitere Themen angeboten, die in der Regel einen inhaltlichen Bezug zu aktuellen Forschungsprojekten des Fachgebiets Wissensverarbeitung haben.

Die Themenstellung erfolgt in Absprache mit dem Studierenden; die Ausrichtung und der Umfang der Arbeit richtet sich nach dem jeweils angestrebten Anschluss. Prinzipiell liegt der Schwerpunkt bei Abschlussarbeiten auf der Methodik, während er bei Projektarbeiten auf der technischen Umsetzung liegt.

Zu folgenden Themengebieten können wir Arbeiten anbieten; zu konkreten Themen können die jeweiligen Betreuer genauere Auskunft geben.

(M = methodischer Schwerpunkt, T = technischer Schwerpunkt, B = als Bachelorarbeit möglich, MA = als Masterarbeit möglich)

Auswertung der RFID-Daten und ihrer Qualität T,M

Die vom SocioPatterns Konsortium entwickelte RFID-Technologie ermöglicht die Lokalisierung von Menschen sowie die Bereitstellung von Informationen über deren soziale Kontakte. Die Daten sind aber nicht immer vollständig. Dies kann mehrere Gründe haben: Distanz zum RFID-Reader, hohe Luftfeuchtigkeit, etc.

Ziel dieser Arbeit ist die Auswertung der vorliegenden RFID-Daten anhand gegebener Fotos (wo soziale Interaktionen aufgezeichnet sind) und eine qualitative Bewertung der mittels RFID aufgezeichneten Kontakte.

Informationen: Mark Kibanov

Erkennen von Anfragemustern auf Nameling T,M

Nameling ist eine Suchmaschine, für die sehr persönliche Aufgabe des Finden eines Babynamens. Die Nameling-Daten spiegeln wieder, welche Namen, in welcher Reihenfolge, auf welchem Pfad von einem Nutzer besucht wurden.

Ziel dieser Arbeit ist es ein Verfahren zu entwickeln das erkennt, nach welchem Muster ein User die Namensseiten abfragt. Welches Geschlecht wird gesucht, sollen Namen ähnlich klingen oder verschieden sein, werden Namen einer bestimmten Herkunft angefragt, etc.

Die Aufgabe besteht aus den folgenden Arbeitspaketen:

Datenbeschaffung: Um die Nameling-Daten nutzen zu können muss aus Datenschutzgründen ein Non-Disclosure-Agreement unterzeichnet werden.
Recherche: Finden von potentiellen Namensmerkmalen.
Selektion: Aus den gefundenen Merkmalen die vielversprechendsten auswählen.
Daten markieren: Automatisierte Zuordnung aller Namen im Nameling-Datensatz zu den ausgewählten Merkmalen.
Implementierung: Es soll ein Verfahren entwickelt werden, welches die Merkmalsklasse der als nächstes angefragten Namen eines Nutzers vorhersagt.
Evaluation: Ein messbarer Vergleich samt Diskussion der implementierten Verfahren und Metriken.
Bonus: Integration des entwickelten Verfahrens in Nameling.

Informationen: Jürgen Müller

Einfluss von Filmen auf die Namensgebung T,M

Ziel dieser Arbeit ist es ein Verfahren zu entwickeln das den Einfluss von Filmen auf die Namengebung abschätzt.

Die Aufgabe besteht aus den folgenden Arbeitspaketen:

Datenbeschaffung: Den IMDB Datensatz herunterladen und in MySQL einspielen.
Recherche: Arbeiten zum Einfluss von Medien auf die Namengebung finden.
Selektion: Aus den gefundenen Faktoren die relevantesten auswählen.
Implementierung: Die relevanten Faktoren implementieren.
Evaluation: Ein messbarer Vergleich samt Diskussion der implementierten Verfahren und Metriken.
Bonus: Erweiterung auf Bücher oder Musik. Als Datenquelle kann beispielsweise Wikipedia dienen.

Informationen: Jürgen Müller

Generator für zufällige formale Kontexte T,M

In diesem Projekt sollen verschiedene Ansätze bipartite Graphen zu erzeugen praktisch untersucht werden, um Generatoren für interessante Klassen von Kontexten zu entwickeln.

Informationen: Tom Hanika

Heuristiken zum Finden maximaler Cliquen T,M

Die maximale Cliquen in einem bipartiten Graphen $G$ entsprechen den formalen Begriffen eines Kontext welcher Isomorph zu Adjazenzmatrix von $G$ ist. Die Berechnung der Menge der formalen Begriffe ist aufwändig. Inwiefern können maximale Cliquen einer gewissen Größe durch heuristische Algorithmen leichter gefunden werden?

Informationen: Tom Hanika

Standard-Sample-Set für die Algorithmenentwicklung sozialer Netzwerke T,M

Bei der Entwicklung neuer Methoden für die Untersuchung von sozialen Netzwerken werden häufig echte Beispieldaten benötigt. Ziel dieses Projektes ist es einen Pool solcher Daten in einem homogenen Format zusammenzustellen. Dabei sollen die Elemente des Pools auch hinsichtlich ihrer grundlegenden Eigenschaften klassifiziert werden.

Informationen: Gerd Stumme

Entropie in formalen Kontexten T,M,B,MA

Entropie ist eine zentrales Maß für viele Objekte in der Wissenschaft. Es gibt verschiedene Ansätze die Idee von Entropie auf soziale Netzwerke zu übertragen. In dieser Arbeit soll ein Schritt weiter gegangen werden, indem eine Weiterübertragung auf formale Kontexte versucht wird. Neben der Modellierung soll eine Evaluierung hinsichtlich der Nutzbarkeit durchgeführt werden.

Informationen: Gerd Stumme

Begriffsverband der Maße T,M,B

Es gibt eine Vielzahl von Maßen zur Identifikation von interessanten formalen Begriffen in Begriffsverbänden. Diese besitzen wiederum sehr verschiedene Eigenschaften wie zum Beispiel Monotonie. Dieser Arbeit besteht aus dem Zusammentragen und der Erstellung einer begriffliche Ordnung aller bekannten Maße.

Informationen: Tom Hanika

Dichtebasiertes Clustering und FBA T,M,B

Die zentrale Fragestellung dieser Arbeit ist die Verbindung zwischen dichtebasiertem Clustering und der Formalen Begriffsanalyse (FBA). Inwiefern können Ideen und Methoden des dichtebasiertem Clustering auf FBA übertragen werden?

Informationen: Gerd Stumme

BibSonomy: Simple Co-Autor Recommender T,M

Für das social bookmark and publication sharing system BibSonomy soll ein simples Co-Autor Empfehlungssystem entworfen und implementiert werden. Es soll zum Beispiel der häufigste Co-Autor eines Autoren empfohlen werden. Dabei kann auf das vorhandene Recommender-Framework des BibSonomy Systems zurückgegriffen werden.

Informationen: Tom Hanika

BibSonomy: Neustrukturierung der Community Post Seite T,M

Community Posts bilden in BibSonomy das gesammelte bekannte Wissen über einen Post ab. Bei diesem Projekt soll diese Seite hinsichtlich Funktionalität und Übersichtlichkeit neustrukturiert werden.

Informationen: Tom Hanika

BibSonomy: Personen- und Autoren-Clouds T,M

Personen- und Autoren-Clouds ermöglichen es dem User sehr aktive Autoren von Publikationen als auch Personen zu entdecken. Das effiziente und zeitnahe Berechnen und bereitstellen dieser Clouds ist jedoch aufgrund der Größe des BibSonomy Systems nicht trivial. Das Projekt beinhaltet die Entwicklung und Implementierung einer Lösung.

Informationen: Tom Hanika

BibSonomy: Weiterentwicklung des BibTeX-Parsers T,M

Parsen von BibTeX-Code ist eine der Schnittstellen um Publikationen in BibSonomy einzutragen. In den letzten Jahren gab es viele Entwicklungen um die orginale BibTeX-Software abzulösen. In diesem Projekt soll der Parser der aktuellen Software Biber untersucht werden um die mögliche Adaptierbarkeit für BibSonomy einzuschätzen.

Informationen: Tom Hanika

Scraping-Framework für Social-Media-Daten zur Erkennung von Benutzerinteressen T

Im Projekt topikos werden anhand von mit Smartphones gesammelter Sensordaten automatisch topologische Karten von Umgebungen erstellt. In einem weiteren Schritt sollen die Karten mit automatisch extrahierten Themen angereichert werden. Für die Themenextraktion müssen zunächst Daten aus Social-Media-Plattformen gesammelt werden (hinterlegte öffentliche Profildaten, Posts, Likes, plattformspezifische Informationen wie Publikationstitel in ResearchGate).

Ziel dieses Projektes ist die Entwicklung eines einheitlichen und erweiterbaren Frameworks zur Beschaffung von Userdaten aus verschiedenen Social-Media-Plattformen. Die zu unterstützenden Plattformen sind Twitter, ResearchGate und Facebook (in Absprache/optional: Google+, BibSonomy, LinkedIn, Xing). In Absprache mit dem Betreuer muss analysiert werden, welche Daten aus diesen Plattformen zugänglich und nützlich sind.
In einem weiteren Schritt soll das Framework das Extrahieren von Features für einen Benutzer ermöglichen (z. Bsp. Bag-Of-Words, TF-IDF).

Informationen: Bastian Schäfermeier

Implementierung und Weiterentwicklung des SignalSLAM-Algorithmus T,M

Der Algorithmus SignalSLAM stellt eine vielversprechende Methode zur automatischen Indoor-Kartografierung mithilfe herkömmlicher Smartphones dar, da der Nutzer sein Smartphone dabei wie sonst auch in der Tasche tragen kann. In diesem Projekt soll der Algorithmus nachimplementiert und anhand selbst gesammelter Sensordaten getestet werden. Ein Nachteil des Algorithmus ist, dass er auf bekannte Punkte im Raum (GPS, NFC oder QR-Codes) angewiesen ist. Daher sollen in einem weiteren Schritt Methoden untersucht werden, diesen Korrekturmechanismus durch andere Informationen zu ersetzen, sodass keinerlei Infrastruktur für die Kartografierung notwendig ist.

Informationen: Bastian Schäfermeier

Aufgabenstellung und Termin:

nach Absprache mit dem jeweiligen Betreuer

Vorkenntnisse:

Informatik Grundstudium bzw. 30 absolvierte Credits des Masterstudiums

Angesprochener Teilnehmerkreis:

Informatik Bachelor Master, Math. NF Inf. Hauptstudium

Leistungsnachweis:

in der Regel Implementierung, schriftliche Ausarbeitung und Vortrag

Umfang:

9 Wochen für Bachelor und 6 Monate für Master

Veranstalter:

Prof. Dr. Gerd Stumme, Dipl.-Math. Tom Hanika, Dipl.-Inform. Mark Kibanov, M.Sc. Bastian Schäfermeier, M.Sc.Andreas Schmidt