== Maschinelles Lernen - Theorie und Anwendung == '''Integrierte Vorlesung mit Übung''' === Termine und Dozenten === ||<|2> '''Termin:''' || Vorlesung: Dienstag, 10:00 - 12:00 Uhr, Beginn 13.04.2010 || ||Übung: Dienstag, 12.00 - 14.00 Uhr, Beginn 13.04.2010|| || '''Raum:''' || FR 1002 || || '''Dozent:''' || [[http://ml.cs.tu-berlin.de/en/klaus/index.html|Prof. Dr. Klaus-Robert Müller]] || || '''Ansprechpartner:''' || [[http://ml.cs.tu-berlin.de/~rieck/teaching.html|Dr. Konrad Rieck]], [[http://ml.cs.tu-berlin.de/~mikio|Dr. Mikio Braun]] || === Themen === In dieser Vorlesungen werden weiterführende Themen des Maschinellen Lernens behandelt. Ein besonderer Schwerpunkt wird auf die Anwendung gelegt werden. Mehrere erfolgreiche Anwendungen des Maschinellen Lernens werden besprochen, und auf die jeweiligen Besonderheiten wird eingegangen. Unter anderem werden folgende Themen behabdelt: * halbüberwachtes Lernen * Boosting-Verfahren * Optimierungstheorie * Kernmethoden für strukturierte Daten * Lernen auf strukturierten Daten * Graphische Modelle Beispiele für erfolgreiche Anwendungen sind unter anderem * Bioinformatik * Erkennen von Angriffen in Computernetzwerken * Textmining === Voraussetzungen === Vorausgesetzt werden Kenntnisse des Maschinellen Lernens (etwa im Rahmen der Veranstaltung [[Main/WS09_MaschinellesLernen1|Maschinelles Lernen I]]) und gute Mathematikkenntnisse, insbesondere Wahrscheinlichkeitsrechnung, Statistik, Linear Algebra. Zur Bearbeitung der Übngsaufgaben sind Programmierkenntnisse in Matlab erforderlich, die im Kurs [[Main/SS10_MatlabKurs|Einführung in die computergestützte Datenanalyse mit Matlab]] vermittelt werden. === Weitere Informationen === Für die Lehre wurde eine [[http://groups.google.com/group/mikiobraun-lehre|Google-Group]] eingerichtet. Man muß sich registrieren, um die Beiträge lesen zu können, aber jeder kann sich registrieren. === Vorlesungsplan === Vorläufige Planung der Vorlesungen || '''Termin''' || '''Thema''' || '''Materialien''' || || 20. April 2010 || Non-linear maps || [[http://www.cse.buffalo.edu/~jcorso/t/555pdf/lleintro.pdf|Introduction]] [[http://www.sciencemag.org/cgi/content/full/290/5500/2323|Overview]] || || 27. April 2010 || Non-linear maps, non-metric data, empirical kernel map || Siehe auch "Introduction to Machine Learning", "Concepts of Probability for Machine Learning" [[Main/MaschinellesLernenW08|hier]]. Link zu [[http://ticc.uvt.nl/~lvdrmaaten/Laurens_van_der_Maaten/t-SNE.html|t-SNE]]|| || 4. Mai 2010 || Stationary Subspace Analysis || [[attachment:ssa_lecture.pdf|Folien]] || || 11. Mai 2010 || Canonical Correlation Analysis and Extensions || [[attachment:cca_lecture.pdf|Folien]] || || 18. Mai 2010 || Kerne für strukturierte Daten || [[attachment:lect-struct.pdf|Folien]] || || 25. Mai 2010 || Maschinelles Lernen für Intrusion Detection || [[attachment:lect-ids.pdf|Folien]] || || 1. Juni 2010 || Relevante Dimension im Kernelfeaturespace || [[attachment:kld-tutorial.pdf|Folien]] || || 8. Juni 2010 || Text Mining || [[attachment:textmining.pdf|Folien]] || || 15. Juni 2010 || Maschinelles Lernen in der Bioinformatik || [[attachment:bioinf.pdf|Folien]] || || 22. Juni 2010 || Maschinelles Lernen in der Bioinformatik || || || 29. Juni 2010 || Hidden-Markov-Modelle || [[http://www.cs.ubc.ca/~murphyk/Software/HMM/rabiner.pdf|Paper von Rabiner]] || || 6. Juli 2010 || Optimierungstheorie || [[attachment:optim-intro.pdf|Folien]] || || 13. Juli 2010 || Large Scale Learning || || === Übungen === Die Vorlesung wird in einer mündlichen Prüfung abgeprüft. Voraussetzung hierfür ist die erfolgreiche Teilnahme an der Übung. Dies bedeutet, dass 50% der Übungsaufgaben erfolgreich bearbeitet werden müssen und mindestens eine Aufgabe an der Tafel erklärt werden muß. * Blatt 1: [[attachment:full_sheet01.pdf]] LLE * Blatt 2: [[attachment:full_sheet02.pdf]] t-SNE. Weitere Dateien: [[attachment:sheet02.m]] [[attachment:mnist_train.mat]] * Blatt 3: [[attachment:full_sheet03.pdf]] Stationary Subspace Analysis [[http://www.stationary-subspace-analysis.org/toolbox|SSA Toolbox]] [[attachment:ssa_data.mat]] * Blatt 4: [[attachment:full_sheet04.pdf]] Temporal Kernel Canonical Correlation Analysis [[attachment:tkcca_example.m]] [[attachment:tkcca_simple.m]] [[attachment:tkcca_toy_data.mat]] * Blatt 5: [[attachment:full_sheet05.pdf]] Kerne und Kernel PCA [[attachment:sheet05.m]] * Blatt 6: [[attachment:full_sheet06.pdf]] Kerne für strukturierte Daten * Blatt 7: [[attachment:full_sheet07.pdf]] Intrusion Detection [[attachment:sheet07.m]] [[attachment:stud-data.mat.gz]] * Blatt 8: [[attachment:full_sheet08.pdf]] Relevant Dimensionality Estimate [[attachment:sheet08.m]] * Blatt 9: [[attachment:full_sheet09.pdf]] TextMining [[attachment:sheet09.py]] [[attachment:sheet09.m]] [[attachment:data.tar.gz]] * Blatt 10: [[attachment:full_sheet10.pdf]] Bioinformatik * Blatt 11: [[attachment:full_sheet11.pdf]] Bioinformatik [[attachment:sheet11.m]] [[attachment:splice-train-data.txt]] [[attachment:splice-train-label.txt]] [[attachment:splice-test-data.txt]] [[attachment:splice-test-label.txt]] * Blatt 12: [[attachment:full_sheet12.pdf]] Hidden-Markov-Modelle * Blatt 13: [[attachment:full_sheet13.pdf]] Optimierungstheorie.