Foto: Stephanie Frey/shutterstock.com
Streamingdienste haben die Musikbranche kräftig umgekrempelt. Durch die überall verfügbaren riesigen Musikkataloge hat sich aber nicht nur die Art, wie wir Musik hören, verändert. Auch neue Musik lernen wir nicht mehr unbedingt durch Freunde und Werbung kennen. Stattdessen verwöhnen uns Spotify, Deezer und Co. mit maßgeschneiderten Playlists ganz nach unserem Geschmack. Stephan Baumann erklärt im Interview, wie die Algorithmen im Hintergrund arbeiten. Er forscht über Musik am Deutschen Forschungszentrum für Künstliche Intelligenz.
Von Ricarda Dieckmann und Tobias Lawatzki
Herr Baumann, welchen Reiz hat ein selbst zusammengestelltes Mixtape noch für Sie, wenn Sie auch eine automatisch generierte Playlist ganz nach Ihrem Geschmack haben können?
Ich bin selbst Musiker, lege zurzeit auch wieder auf und spiele in einem Trio live. Wie man Musik wahrnimmt und was das mit einem auch emotional machen kann, sehe ich immer aus der Perspektive des Musikmachens und des Konsumierens. Mein plakativer Spruch dabei ist immer, „Musik findet im Kopf statt“. Es gibt zwar objektive Beschreibungskriterien für die Musik. Was das aber mit jedem Einzelnen macht, kann ganz unterschiedlich sein.
Können Sie dafür Beispiele nennen?
Dazu gehört etwa, wie man mit Musik sozialisiert wurde. Oder, ob man den Song alleine oder auf einer Party hört und ob man vielleicht begleitet von dem Stück eine gute Zeit beim Volkslauf gelaufen ist. An diese Kriterien tasten sich die Streamingdienste immer näher heran. Sie bekommen mit, wann wer ein Lied überspringt, wie oft er es hört und zu welcher Tageszeit – eher nachts oder morgens. Aber trotzdem gibt es am Ende ein Limit. Die Frage ist also immer, wie viel dieses inneren Erlebens, die Algorithmen tatsächlich abbilden und erfassen können.
Wie funktioniert die Technik hinter den Algorithmen, die Streamingdienste nutzen, um uns möglichst passende Musik zu empfehlen?
Vom Konzept her funktioniert es so: Es gibt da ein Stück Musik und es gibt einen Menschen, der sich das anhört. Das Musikstück kann man anhand objektiver Kriterien beschreiben und identifizieren. Man kann eine automatische Audio-Analyse laufen lassen. Die ermittelt beispielsweise, ob das Stück sehr hochfrequente Anteile hat und ob die Kick-Drum aus einer Musiksoftware kam oder von einem echten Schlagzeug. Da kann man wirklich super ins Detail gehen. In Teilen werden auch die ganzen Metadaten automatisch erfasst. Dazu gehört unter anderem das Releasedatum, das Label und der Komponist. Da kommt unheimlich viel zusammen.
Welche Daten werden über den Nutzer gesammelt?
Bei dem Menschen, der sich das Stück anhört, läuft jetzt eigentlich genau dasselbe ab, wie bei der Analyse der Musik. Es werden also bei der Registrierung für den Streamingdienst Daten erhoben – das Geschlecht, das Alter, die Einkommensklasse und so weiter. Da geht es also um Dinge, die erst einmal gar nichts mit der Musik zu tun haben, die mich aber als Person charakterisieren. Dadurch entsteht ein Vektor von Eigenschaften.
Wie werden Nutzer und Musik jetzt zusammengebracht?
Wir haben nun einen Vektor mit den Eigenschaften des Musikstücks. Und wir haben einen Vektor mit den Eigenschaften des Nutzers. Die können wir mathematisch vergleichen. Also, als Beispiel, Herr Baumann hat sich für ein Stück von der Band Phoenix interessiert von dem Album „Wolfgang Amadeus Mozart“. Dann werden die Eigenschaften dieses Songs mit denen anderer in dem großen Musikkatalog verglichen. Dann kann mir der Dienst andere Stücke empfehlen, die ähnlich interessant sind, ein ähnliches Tempo haben und so weiter. Das kann aber ein bisschen öde werden.
Warum denn?
Weil man hier Ähnlichkeit berechnet. Am Ende beklagt sich der Nutzer vielleicht, dass er zehn Varianten seines Lieblingssongs gehört hat und die Hälfte davon schon kannte. Das ist das Problem bei einem inhaltsbasierten Ansatz: Es wird komplett ignoriert, was uns noch an einem Musikstück interessiert. Dazu zählt zum Beispiel, was meine Freunde hören und irgendwelche Prominenten. Außerdem interessieren den Nutzer vielleicht auch Songs, die gar nicht so klingen wie sein Lieblingsstück. Dann ist es geschickter, wenn man den Nutzer mit anderen vergleicht.
Nach welchen Kriterien vergleicht man die Nutzer miteinander?
Zum einen kann man das über reine Eigenschaften machen, in dem man beispielsweise fragt, was alle männlichen Hörer um die 30, die eine Vorliebe für Hardrock geäußert haben, hören. Dann suchen wir uns zehn Nutzer, die so ähnlich sind wie du. Das kann aber auch schiefgehen. Das führt uns zu einem Ansatz, der nicht inhaltsbasiert ist – das sogenannte kollaborative Filtern.
Was ist das Besondere an diesem Ansatz?
Dabei vergessen wir all diese Eigenschaften, die wir vorher gesammelt haben. Wir wissen also gar nichts mehr über das Musikstück und auch nichts über den Nutzer. Was wir aber haben, ist die komplette Historie an Käufen, Streams und Likes. Dabei erfassen wir wieder so einen Vektor. Also jedes Mal, wenn dreißig User parallel ein Musikstück hören, dann wird dort entsprechend ein Eintrag gesetzt. Dann rechnen wir genauso wie bei dem inhaltsbasierten Modell, nur sind wir jetzt viel stärker an der aktuellen Musikkonsum-Realität dran. Denn jetzt ignorieren wir, ob dieses Stück in d-Moll ist, und ob der User männlich um die dreißig ist. Wir stellen aber fest, ob es da draußen Menschen gibt, die gewisse Stücke im Zusammenhang mit gewissen anderen Stücken hören. Darüber werden diese Eigenschaften viel präziser ermittelt.
Was passiert, wenn neue Songs dazu kommen?
Die liegen eine ganze Zeit lang nur herum und fließen gar nicht in den Empfehlungsalgorithmus rein, weil eben in diesem Vektor nur lauter Nullen drinstehen. Deshalb benutzen die Streamingdienste meist Mischformen. Da werden dann neue Songs dem Nutzer separat vorgestellt nach inhaltsbasierten Vergleichen und dann klickt der ein oder andere da mal rein. Wenn sich das eingeschwungen hat, läuft die andere Mechanik.
Morgens möchte man nicht unbedingt mit der härtesten Musik aufstehen – und bei strahlendem Sonnenschein will man ja auch nicht die traurigsten Lieder hören. Welche Rolle spielt der Kontext?
Der spielt mittlerweile eine riesige Rolle, der dank Streaming ja auch erfasst werden kann. Früher war das noch ein bisschen komplizierter. In den Anfängen von „last.fm“ gab es das erstmals, dass man dafür ein kleines Programm installiert hat, einen Audio-Scrobbler. Wenn man dann in iTunes eine gekaufte mp3 abgespielt hat, ist die Info zurückgeflossen. Zum Beispiel: Herr Baumann hat morgens um 8.30 Uhr schon wieder Phoenix gehört. Dadurch hat das ganze Empfehlungssystem eine neue Facette bekommen. Der Zeitkontext hilft, die Ergebnisse nochmals zu verfeinern. Wir können schauen, zu welcher Tageszeit welche Dinge zusammengehört wurden. Wir können schauen, welche Neueinsteiger in den letzten Stunden wahnsinnig viele Plays bekommen haben. Diese Art von Zeitreihenanalysen macht auch Spotify ganz massiv.
Musik ist oft eine sehr persönliche Angelegenheit, man will Songs hören, die zur momentanen Stimmung passen. Wie können Algorithmen das erfassen?
Die Leute an der Technologiefront sagen oft: Die Menschheit lässt sich bereitwillig tracken in ihrem Verhalten. Und darüber, dass wir nicht über Einzelfälle reden, sondern über sehr massive Zahlen, kann man gewisse Dinge einfach deuten. Ohne jetzt irgendein Genre angreifen zu wollen: Aber, dass morgens um sechs Uhr die Wiedergabezahlen im Death-Metal-Bereich explodieren, ist eher unwahrscheinlich. Aus diesen großen Datenmengen lassen sich durchaus Daumenregeln, mainstreamartiges Verhalten ableiten. Das hören wir als Menschen natürlich nicht gerne. Es ist ja auch hässlich, dass so generalisiert wird. Für die Maschine ist es aber reine Statistik. Und ich erinnere mich: Es gab bei „last.fm“ vor einigen Jahren eine spannende Geschichte, wo ein Musikjournalist, seinen musikalischen Zwilling gefunden hat.
Der musikalische Zwillingsbruder
Über die Musikplattform „last.fm“ fand der „ZEIT“-Autor Jürgen von Rutenberg im Jahr 2009 seinen musikalischen Zwilling. Er ließ denjenigen Nutzer ermitteln, der ihm im Hinblick auf die abspielten Songs am ähnlichsten war: Christian, 27, aus Amsterdam. Nach einigen E-Mails verabredeten sich beide – in einem Plattenladen. Die Lebensläufe zeigten entscheidende Gemeinsamkeiten: Beide wurden in den USA geboren, in der Nähe von Boston. Im Kindesalter zogen beide nach Europa. Auch im Hinblick auf Lieblingsmaler und -komiker waren sich beide ähnlich. Die komplette Geschichte ist hier zu finden.
Was wollen Sie uns mit dieser Anekdote sagen?
Sie soll eines verdeutlichen: Klar ist es schwer, sich einzugestehen, dass man sich der Statistik nach in einem User-Segment befindet, in das noch 40.000 andere Menschen fallen. Doch die Maschine und die Analysten nehmen darauf keine Rücksicht. Die Ergebnisse werden produziert und wir müssen sehen, wie wir damit klarkommen.
Wie hat sich durch die Musikempfehlungssysteme unser Musikgeschmack verändert?
Die Frage habe ich abschließend noch nie richtig beantworten können. Das ist ja auch ein Komplex, der uns jenseits der Musikempfehlungen begleitet. Wir sind damit beim Thema Filterbubble angelangt. Tatsächlich bewegen wir uns auch beim Musikstreaming in diesen individualisierten Filterblasen. All das ist wahnsinnig bequem, oft sind auch super Treffer dabei und dann fühlt es sich für den Nutzer gut an. Man muss schon aufpassen, dass man da ab und zu auch mal rauskommt.
Brauchen wir durch die Musikempfehlungen noch Musikkritiker oder eine Branche, die kräftig Werbung macht? Oder brauchen wir sie gerade jetzt?
Ich würde eher Letzteres sagen. Ich finde es okay, dass es weiterhin dieses Expertentum gibt, das nicht über die Big-Data-Analysen recherchiert, sondern auf anderen Wegen. Die ein Talentscouting betreiben, ganz jenseits von Aussagen wie „Auf Soundcloud geht gerade ein Künstler ab, der hat wahnsinnige Peaks morgens um zehn, die kommen von Australien aus und gehen über Neuseeland weiter.“ Stattdessen gehen sie in einen üblen Musikkeller in Berlin-Neukölln, wo es eine komplette digitale Verweigerung gibt, und hören sich Musik an, die nur beim Konzert zu finden ist.
Würden Sie sagen, die Musikempfehlungen sind in zehn Jahren so gut, dass wir immer nur die perfekte Playlist bekommen?
Wir könnten die emotionalen Reaktionen ebenfalls digitalisieren, etwa über die Herzrate. Forschung, die den Gänsehautfaktor messen will, gibt es schon lange. Aber ich glaube, dass man damit eher generelle Effekte feststellen kann, die ohnehin bekannt sind – zum Beispiel, dass Moll eher für traurige Situationen steht und so weiter. Am Ende gibt es da Limits.
Also werden Leute weiter Songs skippen?
Wenn wir ganz weit gehen und sagen, der Mensch ist bereit, seine emotionalen Reaktionen digital messen zu lassen, könnte sich das natürlich noch verbessern. Aber ich glaube daran, dass der Mensch irgendwann trotzdem aus freier Entscheidung sagt: „Nö, das will ich heute mal nicht.“
Und das ist das Autoren-Duo: Ricarda Dieckmann: Ist in Kiel aufgewachsen - und hat ein Buddelschiff auf dem Schreibtisch stehen. Seit 2013 studiert sie Journalistik und Politikwissenschaft in Dortmund. Volontiert hat sie von 2015 bis 2016 bei der Fuldaer Zeitung, seitdem schreibt sie unter anderem als freie Autorin für das Jugendmagazin move36 - vor allem über das schöne Thema Liebe. Tobias Lawatzki: Journalist aus Bielefeld. Studiert in Dortmund Journalistik, hat bei der HNA in Kassel volontiert und arbeitet jetzt für den Westfälischen Anzeiger. Guckt zu viel Fernsehen, hört viel (aber eigentlich noch zu wenig) Musik.