Interview: Stephan Bernsee

Stephan Bernsee ist Entwickler der sonicWORX Technologie und für Prosoniq verantwortlich für die Entwicklung von Isolate.

Isolate ist weltweit die erste Software, die es erlaubt, Instrumente aus einem kompletten Mix herauszulösen oder zu unterdrücken. Schon auf der Musikmesse in Frankfurt 2009 wurde ein Vorläufer präsentiert, damals noch unter der Bezeichnung SonicWORX Pro, der für Aufsehen, Neugier und auch Vorfreude auf ein völlig neues Produkt mit innovativen Fähigkeiten sorgte. Die Markteinführung von SonicWORX Isolate startete im September 2010. Welches waren die Gründe für diese erhebliche Verzögerung?

stephan_bernsee1

Da gab es eine ganze Reihe von Gründen, allen voran die doch überraschend schnelle Lieferung von Snow Leopard im August 2009, also relativ kurz nach der Apple-Ankündigung im Juni desselben Jahres. Snow Leopard ist unter der Haube ein extensiv umgearbeitetes Mac OS X mit vollem 64-Bit Support und weitreichenden Änderungen beim Thema Multitasking. Einiges in sonicWORX musste dafür neu geschrieben werden, da wir praktisch alle Bearbeitungsprozesse parallel auf mehreren Prozessorkernen ausführen und von Anfang an voll auf 64-Bit Unterstützung gesetzt haben. Diese Zeit für die Umarbeitung fällt auch bei vielen anderen Herstellern an, typischerweise aber erst nach dem Release.

Dann hatten wir damals mit einem deutschen Kopierschutzanbieter gesprochen, dessen USB Dongle wir eigentlich zum Schutz der Software verwenden wollten. Leider wurde dieser Dongle just zu dem Zeitpunkt gehackt, als wir liefern wollten, und besagter Anbieter weigerte sich daraufhin aus Sicherheitsbedenken heraus, uns die Dongles bereitzustellen, bis der Hack erfolgreich abgewehrt werden konnte. Da wir keine Information darüber bekommen konnten, wann damit zu rechnen sei, und das Ganze nach einer größeren Angelegenheit aussah, haben wir uns letzten Endes in Abstimmung mit Prosoniq dann entschlossen, ganz darauf zu verzichten. Im Nachhinein sind wir aber doch ganz froh darüber.

Das alles ist auch der Grund, warum die etwas kleinere Version Isolate zuerst auf den Markt kam: Wenn wir gewartet hätten, bis nach all diesen Verzögerungen die Pro-Features fertig gewesen wären, dann wären wir vermutlich jetzt noch nicht im Verkauf. Das kann sich Prosoniq als kleines Independent-Unternehmen finanziell nicht leisten.

SonicWORX Isolate nutzt ein eigenständiges statistisches Verfahren für die Analyse des Audiomaterials. Kannst Du unseren Lesern beschreiben, was sich dahinter verbirgt?

Im Grunde handelt es sich dabei um ein Verfahren, das versucht, das Material in möglichst wenige, möglichst kontextuell zusammenhängende Komponenten zu zerlegen. Dieses Verfahren kommt bei uns auch in vielen anderen Produkten zum Einsatz, beispielsweise beim MPEX Time Stretching der Prosoniq TimeFactory oder beim Hartmann Neuron Synthesizer. Wir verwenden es darüber hinaus auch in anderen Marktsegmenten wie in der Messtechnik und bei der Zeitreihenvorhersage, beispielsweise beim Wetter oder am Finanzmarkt. Es ist ein adaptives Verfahren, was einerseits bedeutet, dass beim Analyse-Schritt die meiste Rechenarbeit anfällt und die Rekonstruktion des Signals sehr schnell vonstatten geht. Der Vorteil des Verfahrens ist andererseits aber, dass man dafür eine sogenannte teilparametrische Darstellung des Signals erhält, die in der zeitlichen wie auch in der frequenzseitigen Auflösung auf das untersuchte Teilstück hin optimiert ist. Zum Vergleich: Die herkömmliche Fourier-Transformation ist nicht-parametrisch, das bedeutet, es ist lediglich eine Umrechnungsvorschrift in eine andere Darstellung, die die Eigenschaften des analysierten Signals nicht berücksichtigt. Das heißt, man muss dann nach der Umrechnung sehr aufwendige Algorithmen einsetzen, um Komponenten zusammenzufassen, die getrennt dargestellt werden aber eigentlich zusammen gehören. Bei unserem Verfahren ist das anders. Die künstlichen Neuronalen Netze sind dabei der Steuerungsmechanismus eines Optimierungsprozesses, der die Analyse auf den Klang hin anpasst.

Durch die Analyse wird eine Originaldatei um ein Vielfaches umfangreicher. Aus 30 MB können schnell 1 GB und mehr werden. Während der Arbeit am analysierten Material kann sich die Größe der Datei nochmals mehr als verdoppeln. Wie kommt es dazu, dass eine Ausgangsdatei um das Dreihundertfache größer wird?

Daran bin ich gewissermaßen persönlich schuld: Ich bin nämlich absolut kein Freund von Kompromisslösungen. Es geht hier ja nicht um Bearbeitungen im musikalischen Kontext, also z. B. um Tonhöhen-Manipulation einzelner Noten innerhalb eines Mixes oder um Laustärkeanpassung bestimmter Bereiche im Stereo-Panorama. Bei uns geht es darum, Einzel-Elemente, allen voran Stimme – für deren Klang wir als Mensch eine entwicklungsgeschichtlich sehr alte und äußerst fein abgestimmte Wahrnehmung besitzen – tatsächlich freizustellen. Der Klang steht somit mit heruntergelassener Hose vor dem Hörer, und das gilt auch für unsere Algorithmen. Sicher werden die Klänge nachher wieder woanders eingebaut und man hört dann vielleicht gar nicht mehr viel von etwaigen Nebeneffekten, die bei der Trennung entstehen können. Wir wollen aber trotzdem das bestmögliche Ergebnis liefern. Ich finde es macht keinen Sinn, in einer derart spezialisierten Anwendung neue Bearbeitungs-Möglichkeiten bieten zu wollen und dann an der Klangqualität zu sparen, wenn man es mit ein paar zusätzlichen Megabytes an Platz doch erheblich besser machen kann. Da sonicWORX eine Anwendung für genau eine Aufgabe ist und wir nicht wie ein Wellenformeditor oder eine DAW noch dutzende andere Dinge gleichzeitig damit tun, kann man den Bedarf an Speicherplatz dem Kunden auch durchaus vermitteln.

Technisch begründet sich der Platzbedarf in der geradezu irrwitzig hohen Auflösung, die wir verwenden, die dann andererseits aber auch dafür sorgt, daß es bei der Bearbeitung keine herkömmlichen Artefakte gibt wie z. B. bei einer Bearbeitung mit einer Fourier-Transformation. Wenn man derart radikale Eingriffe in den Klang, wie wir sie in sonicWORX vornehmen, auf traditionelle Weise versuchen würde, würde das schnell zu drastischen Verfärbungen führen, die nach Low-Bitrate-MP3 oder einem wild gewordenen Entrauscher klingen. Ich habe eine ausgesprochene Allergie gegen diese mittlerweile leider allgegenwärtige „Verrotzung“ und „Verschwurbelung“ des Klanges und den vom Konsumenten heute einfach hingenommenen Verlusten, wie sie zum Beispiel bei der MP3-Datenreduktion entstehen. Ich gehe in dieser Hinsicht in unseren Produkten einfach keine Kompromisse ein – auch wenn es zusätzlich Plattenplatz oder Rechenleistung kostet und im Endeffekt vielleicht sogar einen Großteil der Kunden gar nicht interessiert. Andererseits wird Plattenplatz aber ohnehin immer billiger und wir haben in dieser Hinsicht von unseren Kunden bisher auch keine Klagen gehört.

SonicWORX Isolate ist auf die Erkennung von Gesang und gesangsähnlichen Soloinstrumenten spezialisiert. Das 2009 vorgestellte SonicWORX Pro sollte für das Auseinandernehmen eines kompletten Mixes in die unterschiedlichsten Instrumente von Drums über Bass bis Gesang verwendet werden können. Wird es eine solche, umfassendere Pro-Version geben?

Ja. Es wurde gerade diese Woche vom Management beschlossen, jetzt auch offiziell darüber zu sprechen dass sonicWORX Isolate schrittweise in die Pro-Version umgebaut wird. Es lohnt sich also als Anwender, frühzeitig aufzuspringen. Alle bestehenden Isolate-Kunden bekommen dann sukzessive eine vollwertige Pro-Version. Damit wollen wir uns einerseits bei den frühen Einsteigern bedanken und gleichzeitig sinnvoll re-investieren: anstatt irgendwann in einem Jahr eine neue, große Softwareversion herauszubringen, die mit dem Geld der Isolate-Kunden vorfinanziert wurde, bekommen sie gleich selbst Zugriff auf die neuesten Entwicklungen und sind immer auf Augenhöhe mit dem letzten Stand der Dinge bei uns. Umgekehrt bringt uns das auch Erkenntnisgewinn: Das Trennen von Signalgemischen ist keine leichte Aufgabe und wir sind auf das Feedback unserer Power-User angewiesen. Wir nehmen alle Vorschläge ernst und verfolgen ohnehin die Philosophie, innerhalb kürzester Zeit auf Kundenanfragen und Problem-Reports zu antworten. Wenn gerade jemand da ist sogar nachts und am Wochenende. Ich finde, guter Support und ein offenes Ohr für den Kunden sind tatsächlich der beste Kopierschutz.

Die Mustererkennung durch Neuronale Netzwerke kam schon früher zum Einsatz. Die Klangsynthese des Hartmann Neuron Synthesizers, der zwischen 2003 und 2005 verkauft wurde, baute auf Prosoniq Software auf. Leider wurde das Produkt nach dem Erscheinen des Neuron VS 2005/2006 nicht mehr weiter entwickelt. Gibt es Überlegungen seitens Prosoniq, auf der Basis Neuronaler Netzwerke künftig auch wieder Klangerzeuger zu entwickeln?

Ich kann mir nicht vorstellen, daß eine derart innovative Technologie ungenutzt bleiben wird. Das Projekt Neuron war unter anderem durch den enormen Kostenfaktor der Hardware damals ein paar Nummern zu groß für alle Beteiligten, aber mittlerweile sieht der Hardware-Markt durch die Entwicklungen im Mobile- und Handheld-Bereich ja wieder vollkommen anders aus. Man hatte damals ja nur zwei Möglichkeiten: Man konnte entweder einen PC in eine Box stecken, oder eine Lösung auf Basis der sehr preisgünstigen Motorola 56000er DSPs bauen, die allerdings für aufwendige Rechenaufgaben nur sehr eingeschränkt geeignet sind. Beides ist unterm Strich unbefriedigend, und wenn man es richtig machen will auch teurer als man denkt. Durch den Vormarsch der Handys und Tablets mit ARM Prozessoren hat sich das aber nun grundlegend geändert – man bekommt jetzt richtig leistungsfähige und vor allem kleine Computer für wenig Geld und mit viel Konnektivität.

Der Trend weg vom traditionellen Desktop-Computer wird auch in der Musikindustrie in den nächsten Jahren einiges verändern und ich freue mich schon darauf. Da wir bei der DSP Dimension heute schon federführend bei der Entwicklung mobiler DSP Technologien sind, sehe ich uns in dieser Hinsicht sehr gut aufgestellt.

Danke für das Gespräch

Holger Obst

Über Prosoniq

Die Karlsruher Softwareschmiede Prosoniq wurde 1990 gegründet und konzipiert und vertreibt Audio-Software für den Mac, die auf dem Einsatz künstlicher Neuronaler Netze zur Mustererkennung bei Audiosignalen basiert. Prosoniq spezialisiert sich dabei auf Sound Design-Applikationen: sowohl Software für spezialisierte Aufgaben als auch Plug-in Erweiterungen für populäre Plattformen, die innovatives Klangdesign ermöglichen gehören zur Produktpalette.

Die Mainzer DSP Dimension wurde 2005 aus der Prosoniq R&D als eigenständiges Unternehmen ausgegründet. Sie entwickelt und vermarktet Signalverarbeitungs-Technologien in verschiedenen horizontalen Marktsegmenten. Gleichzeitig erstellt die DSP Dimension im Kundenauftrag auch komplette Eigenentwicklungen für verschiedene Unternehmen auf den Plattformen Linux, Mac OS X, Windows, iOS und Android.

Webseiten