«Ich habe grossen Spass an der Mathematisierung komplexer Probleme»
Warum ihn Statistik so fasziniert und wie er, finanziert von einem ERC Grant, neue mathematische Methoden entwickelt, die verborgene Zusammenhänge in grossen Datensätzen sichtbar machen. Davon erzählt Peter Bühlmann, Professor für Mathematik an der ETH Zürich, im Interview mit Rolf Probala.
Peter Bühlmann, Sie sind Statistiker. Wie sind Sie dazu gekommen?
Ich hatte an der Mittelschule einen coolen jungen Mathematiklehrer, der mich auch als Mensch begeisterte. Aber ich fand die Mathematik im Gymnasium nicht so wahnsinnig spannend. Sie war mir etwas zu mechanisch. Man lernte gewisse Regeln und leitete anschliessend mit diesen etwas her. Aber da mein Vater Mathematikprofessor war, erhielt ich zuhause eine leise Ahnung davon, wie kreativ Mathematik sein kann; dass man ein reales Phänomen mit Hilfe von Mathematik formalisieren und mit Mathematik auch etwas zur Lösung gesellschaftlicher Fragen und Probleme beitragen kann. Und daher habe ich gedacht, ok, ich studiere mal Mathematik.
Und was hat Sie dann bewogen, sich auf Statistik zu spezialisieren?
Ich war als Student schon nach der ersten Statistikvorlesung fasziniert, dass man mit Hilfe von Statistik rückwärts schliessen kann. Wenn man beispielsweise eine Münze mehrmals wirft und notiert, wie oft Kopf oder Zahl erscheint, kann man herausfinden, ob die Münze gezinkt ist oder nicht. Ich fand es sehr spannend, dass aufgrund der Empirie Schlüsse über die Wahrheit, den wahren Zustand dieser Münze oder die besondere Münzwurf-Fähigkeit einer Person gezogen werden können. Daraufhin habe ich begonnen, Statistikvorlesungen zu besuchen und mich auf diesem Gebiet zu spezialisieren. Ich hatte zwar Freude an der reinen Mathematik, aber sie mit etwas aus der realen Welt zu verbinden, fasziniert und motiviert mich bis heute. Ich habe grossen Spass, komplexe Probleme mathematisch zu formulieren, sie zu mathematisieren.
Was genau macht ein Statistiker?
Wir versuchen, mit Hilfe mathematisch-statistischer Methoden in einer Fülle von Daten Muster und Beziehungen zu erkennen und daraus dann Schlüsse zu ziehen, um Hypothesen zu verwerfen, Modelle zu validieren oder Vorhersagen zu machen. Das Spezielle an der Statistik ist, dass sie das einzige Framework bietet, in dem sich auch die Unsicherheiten quantifizieren lassen. Die Schlüsse, die wir ziehen, sind immer mit gewissen Wahrscheinlichkeiten behaftet, unter denen dies oder jenes geschieht.
«Ich fand die Mathematik im Gymnasium
nicht so wahnsinnig spannend.
Sie war mir etwas zu mechanisch.»
Wir werden daher nie sagen, dass etwas mit absoluter Sicherheit eintritt. In meiner Forschung beschäftige ich mich zum einen mit der mathematischen Entwicklung neuer statistischer Methoden. Zum anderen arbeite ich in interdisziplinären Projekten mit interessanten Partnern vor allem aus den Bereichen Life Science, Biologie und Medizin. Sie alle brauchen Statistik, um komplexe Fragen zu lösen und da suchen wir gemeinsam, wo und wie die statistische Modellierung einen Beitrag leisten kann.
Wie gehen Sie da vor?
Wir reden über das Problem, um das es geht, bis wir es genau verstanden haben. Danach versuchen wir, das Problem in eine mathematische Form zu bringen, ein Modell zu formulieren. Mathematisierung ist ja immer auch Vereinfachung. Wenn die mathematische Formulierung gelingt, ist schon mal die Hälfte der intellektuellen Arbeit geschafft. Der Kernpunkt der Mathematik ist, dass sie eine Sprache bietet, mit der sich klar über ein Problem kommunizieren lässt und mit der sich auch die Annahmen formulieren lassen, unter denen das Problem lösbar ist.
Damit sind wir bei Ihrem ERC-Projekt mit dem Titel «Statistics, Prediction and Causality for Large-Scale Data». Worum geht es dabei?
Sehr vereinfacht gesagt geht es darum, neue statistische Methoden zu entwickeln, mit denen sich aus grossen Datenmengen Kausalitäten und Zusammenhänge entdecken lassen, die sich mit den bekannten statistischen Techniken nicht erschliessen.
«Das Spezielle an der Statistik ist,
dass sie das einzige Framework bietet,
in dem sich auch die Unsicherheiten
quantifizieren lassen.»
Dies erweist sich zum Beispiel als besonders vielversprechend in der interdisziplinären Zusammenarbeit mit Ruedi Aebersold auf dem Gebiet der Proteomik: Von Daten auf «echte» Kausalität zu schliessen ist enorm schwierig, aber unsere Methodologie bringt uns diesem ambitionierten Ziel einen grossen Schritt näher. Solche neuen statistischen Methoden helfen auch, komplexe Systeme robuster zu machen, so dass sie in neuen oder veränderten Umgebungen verlässlich funktionieren. Ich kann dies am Beispiel des interdisziplinären Projekts PSSS (Personalized Swiss Sepsis Study) illustrieren, bei dem ich mitwirke. Das Projekt wird vom Machine Learning & Computational Biology Lab der ETH Zürich und dem Universitätsspital Basel koordiniert. Es hat zum Ziel, die Risiken von Sepsis, also Blutvergiftungen, individuell für jeden Patienten auf den Intensivstationen von Spitälern frühzeitig zu erkennen. Das System überwacht den Zustand des Patienten, indem es rund 800 Merkmale wie Puls, Blutdruck, Sauerstoffgehalt usw. kontinuierlich misst. Wenn sich nun eine Blutvergiftung entwickelt, sollte das System möglichst früh erkennen, wie gefährlich sie für diesen individuellen Patienten sein kann. Dazu verwendet man Techniken des maschinellen Lernens, mit denen man die Algorithmen des Systems quasi «trainiert», so dass es möglichst viele Anzeichen und Erscheinungsformen von Sepsis erkennen kann. Die grosse Herausforderung dabei ist, dass dieses System nicht nur für eine bestimmte Gruppe von Patienten in einem bestimmten Spital funktionieren soll, sondern generell für möglichst alle Patienten überall.
Und wie kann die Statistik da helfen?
Wir können auch nicht zaubern, aber da kommt jetzt Big Data ins Spiel. Es gibt viele publizierte Studien und Erfahrungen zu Ursachen und Erscheinungsformen von Sepsis auf Intensivstationen. Jetzt stellt sich die Frage: Wie erschliesse und kombiniere ich diese Informationen so geschickt, dass sich Aussagen besser generalisieren lassen? Dazu braucht es neue statistische Methoden.
In welcher Form liegen diese neuen statistischen Methoden vor, wenn das ERC-Projekt abgeschlossen ist?
Als Formeln, als mathematische Theorie und als neue Methodologie. Dazu gehören auch die Bedingungen, unter denen wir Aussagen machen und worüber wir (und auch andere Methoden) keine Aussagen machen können. Das ist das eine Ergebnis. Das andere wird eine Software sein, um diese Methoden und Algorithmen anzuwenden und diese wird Open Source sein, so dass sie allen zur Verfügung steht.
Interdisziplinäre Zusammenarbeit ist Ihnen ein Anliegen. Sie haben letztes Jahr die Initiative «ETH Foundations of Data Science» lanciert, an der die Departemente Mathematik, Informatik sowie Informationstechnologie und Elektrotechnik mitwirken. Mit welchem Ziel?
Zum einen, um unsere Forschung zu erweitern, noch besser abzustimmen und die Zusammenarbeit zu intensivieren. Zum anderen aber auch, um den jungen Wissenschaftlerinnen und Wissenschaftlern eine breitere Perspektive bieten zu können. Wir haben viele sehr begabte und motivierte Postdocs und Doktorierende. Mir ist es wichtig, dass sie genügend Ansprechpartner und ein inspirierendes Umfeld finden, um auch selbst etwas auf die Beine stellen zu können. Dieser Zusammenschluss schafft, so hoffe ich, eine kritische Masse von Leuten, unter denen dann auch informell neue exzellente Ideen entstehen.
Wir erleben gerade, wie Big Data und Künstliche Intelligenz Wirtschaft und Gesellschaft grundlegend verändern. Da stellen sich auch neue ethische Fragen. Wie gehen Mathematiker damit um?
Mit der Frage, was darf man und was soll man, sind heute auch wir Mathematiker konfrontiert und die Dinge entwickeln sich sehr schnell. Mediziner, Biologen und Genetiker mussten sich schon sehr viel früher mit diesen Fragen auseinandersetzen. Im Moment geschieht dazu von Seiten der Grundlagenforscher noch nicht allzu viel, vielleicht weil sie sich auch auf den Standpunkt stellen: Ich liefere ja nur die Grundlagen, die Systeme bauen die Ingenieure. Aber das reicht nicht mehr. Ich glaube, dass es wichtig ist, diese ethischen Fragen auch in unsere mathematische Kultur und ins Curriculum der entsprechenden Ausbildungsgänge der ETH Zürich aufzunehmen.
Wie sehen Sie die Zukunft der Mathematik?
Mit der Digitalisierung ist auch eine Mathematisierung vieler Lebens- und Gesellschaftsbereiche eingetreten.
«Wenn die mathematische
Formulierung gelingt,
ist schon mal die Hälfte
der intellektuellen Arbeit
geschafft.»
Die Mathematik hat heute eine viel stärkere Position als noch vor ein paar Jahrzehnten, als sie manchmal als eine etwas abgehobene «Königsdisziplin» wahrgenommen wurde. Heute realisiert die Öffentlichkeit, dass die Mathematik auch zur Lösung wichtiger gesellschaftlicher Themen beitragen kann. Daher sollten die Mathematiker auch den Mut haben, zu sagen: Weil wir geschult sind, in einer bestimmten exakten Art und Weise über Probleme zu kommunizieren, sollten wir nicht nur rechnen und bereits geschehene Phänomene analysieren, sondern auch «aktiv» mitreden und mitgestalten.
Interview mit Peter Bühlmann
Peter Bühlmann
Peter Bühlmann studierte Mathematik an der ETH Zürich und doktorierte 1993 in Mathematik mit einer Arbeit zur Statistik. Von 1994 bis 1995 arbeitete er als Postdoc und von 1995 bis 1997 als Neyman Assistenzprofessor am Departement für Statistik der Universität von Kalifornien in Berkeley. Danach kehrte er an die ETH Zürich zurück, wo er am Departement Mathematik von 1997 bis 2001 als Assistenzprofessor und von 2001 bis 2004 als ausserordentlicher Professor für Mathematik wirkte. Seit Oktober 2004 ist er ordentlicher Professor für Mathematik. Sein Forschungsschwerpunkt ist die Statistik in Verbindung mit maschinellem Lernen, Bioinformatik und Computational Biology.
Horizon 2020 Projekt
CausalStats: Statistics, Prediction and Causality for Large-Scale Data
- Projektart: ERC Advanced Grant
- Dauer: 60 Monate
- Beitrag für die ETH Zürich: 2’184’375 €