Praktikum Maschinelles Lernen und Datenanalyse
Termin: |
Montag 10:00 - 12:00 Uhr (Vorlesung), 14:00 - 16:00 Uhr (Gemeinsame Sprechstunde) |
Raum: |
FR 3531 (10:00 - 12:00 Uhr) und FR 6043 (14:00 - 16:00 Uhr) |
Dozent: |
Prof. Dr. Klaus-Robert Müller |
Ansprechpartner: |
Dr. Mikio Braun und Paul von Bünau (buenau@cs.tu-berlin.de) |
Im Praktikum Maschinelles Lernen und Datenanalyse soll der Prozess der explorativen Datenanalyse geübt werden. Der Schwerpunkt liegt auf den Themengebieten Visualisierung und Dimensionsreduktion, Klassifikation mit Neuronalen Netzen, Hidden-Markov-Modelle auf Genomdaten und Support-Vektor-Maschinen. Die Aufgaben sind kombinierte Programmier- und Simulationsaufgaben in Matlab, C oder Python/Shogun.
Der Besuch des Blockseminars Einführung in die computergestützte Datenanalyse mit Matlab und R wird empfohlen. Grundlegende Kentnisse des Maschinellen Lernen sind sehr hilfreich, bei grossem Interesse und Engagement aber keine zwingende Voraussetzung.
Die Veranstaltung gliedert sich in zwei Teile: Eine Vorlesung, in der Methoden und Theorie der Aufgaben vermittelt werden (Montags 10:00 - 12:00 Uhr) und eine gemeinsame Sprechstunde (14:00 - 16:00 Uhr), in der wir Fragen und Probleme besprechen, die bei der Bearbeitung der Aufgaben auftauchen.
Termine
Datum |
Uhrzeit |
Raum |
Beschreibung |
Montag, 16.04. |
10:00 Uhr |
FR 3531 |
Vorbesprechung |
|
14:00 Uhr |
FR 6043 |
Ausgabe des ersten Übungsblattes, Matlab Einführung |
Montag, 23.04. |
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum ersten Übungsblatt |
Montag, 30.04. |
9:00 Uhr |
|
Abgabeschluss erstes Übungsblatt |
|
10:00 Uhr |
FR 3531 |
Theorie zum zweiten Übungsblatt |
|
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum zweiten Übungsblatt |
Montag, 7.5. |
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum zweiten Übungsblatt |
Montag, 14.5. |
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum zweiten Übungsblatt |
Montag, 21.05. |
10:00 Uhr |
|
Abgabeschluss zweites Übungsblatt |
|
10:00 Uhr |
FR 3531 |
Theorie zum dritten Übungsblatt |
|
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum dritten Übungsblatt |
Freitag, 1.06. |
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum dritten Übungsblatt |
Montag, 4.06. |
10:00 Uhr |
|
Abgabeschluss drittes Übungsblatt |
|
10:00 Uhr |
FR 3531 |
Theorie zum vierten Übungsblatt |
|
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum vierten Übungsblatt |
Montag, 11.06. |
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum vierten Übungsblatt |
Montag, 18.06. |
10:00 Uhr |
|
Abgabeschluss viertes Übungsblatt |
|
10:00 Uhr |
FR 3531 |
Theorie zum fuenften Übungsblatt |
|
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum fuenften Übungsblatt |
Montag, 25.06. |
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum fuenften Übungsblatt |
Montag, 02.07. |
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum fuenften Übungsblatt |
Montag, 09.07. |
10:00 Uhr |
|
Abgabeschluss fuenftes Übungsblatt |
|
10:00 Uhr |
FR 3531 |
Theorie zum sechsten Übungsblatt |
|
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum sechsten Übungsblatt |
Montag, 16.07. |
14:00 Uhr |
FR 6043 |
Gemeinsame Sprechstunde zum sechsten Übungsblatt |
Freitag, 03.08. |
18:00 Uhr |
|
Abgabeschluss sechstes Übungsblatt |
Material
Übungsblätter
Übungsblatt 1: Matlab, Daten (usps.mat), Mitschnitt der Matlab-Vorführung (Matlab_diary.txt).
Übungsblatt 2: Dimensionsreduktion (PCA, Isomap, LLE), Daten (flatroll.mat, swissroll.mat, usps.mat, fishbowl.mat). Hinweis: Zur Visualisierung der echten Einbettung eignet sich beispielsweise scatter3(X(1,:), X(2,:), X(3,:), [], true_embedding).
Übungsblatt 3: Clustering: Daten (usps.mat, U03_2gaussians.dat, U03_5gaussians.dat).
Übungsblatt 4: Grundlagen der Klassifikation: Daten (U04_datasets.zip)
Übungsblatt 5: Support-Vektor-Maschinen: Daten (U05_datasets.zip)
Übungsblatt 6: Belief Propagation: Daten (ratbert-debate.mat, tu_logo.mat, long_words.mat). Hinweis: Die Bilder koennen mit colormap('gray'); imagesc(I); geplottet werden.
Vorlaeufiger Plan
- Übungsblatt 3 (2 Wochen, 21.5.-4.6.2007): Clustering (k-means, EM, Hierarchical Clustering)
Übungsblatt 4 (2 Wochen, 4.6.-18.6.2007): Basics zu classification & model selection (Loss functions, cross validation, kernel ridge regression, decision trees, boosting)
- Übungsblatt 5 (2 Wochen, 18.6.-2.7.2007): Support-Vector-Maschinen
- Übungsblatt 6 (2 Wochen, 2.7.-16.7.2007): Bayesian inference in graphical models (factor graphs, loopy belief propagation)
Musterloesungen
Übungsblatt 1: Aufgabe1.m, Aufgabe2.m, Aufgabe3.m, Aufgabe4.m, Aufgabe5.m
Links
Allgemeine Literaturempfehlungen zum Machine Learning
Als allgemeine Einführung in Theorie und Methoden des Maschinellen Lernens empfehlen wir die folgenden Lehrbücher.
Duda, Hart, Stork. Pattern Classification.
Bishop. Pattern recognition and machine learning.
MacKay. Information theory, inference, and learning algorithms.
Eine auf die Aufgaben abgestimmte Literaturliste wird noch bekannt gegeben.
Literatur zu Matlab:
Biran, Adrian. MATLAB für Ingenieure
Skript
Prüfungsmodalitäten
Die Endnote setzt sich zusammen aus den Leistungen in den Uebungsblaettern (50%) und einer muendlichen Abschlusspruefung (50%).
Die Pruefung wird ab Anfang September stattfinden.