Interview
Interview KI und Datenschutz
«In manchen Bereichen wäre eine Regulierung der KI sehr sinnvoll»
Isabel Wagner
Professorin für Cybersecurity / Universität BaselWechsel an die Universität Basel
Frau Wagner, Sie sind seit vergangenem September neu Professorin für Cybersecurity an der Universität Basel. Wie war Ihr Einstieg?
Sehr gut und sehr schön. In der Lehre gibt es gerade eine neue Vorlesung im Masterstudiengang mit dem Titel «Privacy-Preserving Methods for Data Science and Distributed Systems», wo es darum geht, wie Datenverarbeitung und Datenanalyse in privatsphärefreundlicher Weise realisiert werden können. Weiter sind wir daran, das Curriculum ein wenig umzustellen und im nächsten Frühjahr neue Cybersecurity-Vorlesungen einzuführen, mit Inhalten, die bisher etwas verstreut waren. Und dann gab es schon zwei Seminare zum Thema Privacy: Es scheint bei den Studierenden durchaus Interesse am Gebiet Privatsphäre und Sicherheit zu geben, was sehr schön ist. Ganz aktuell hatte ich gestern [11. Mai 2023] meine Antrittsvorlesung. Und dann habe ich drei neue Doktorierende, die an verschiedenen Themen arbeiten werden, aber auch an gemeinsamen, wie beispielsweise an einem Projekt, das wir nächste Woche auf der Fantasy Basel ausstellen werden. Wir werden dort den Datenverkehr verschiedener Internet-der-Dinge-Geräten visualisieren und aufzeigen, wohin diese überall auf der Welt Daten versenden.
Das dürfte sicherlich manche im Publikum überraschen… Zu welchem Thema war Ihre Antrittsvorlesung?
Sie hatte den etwas reisserischen Titel «Privacy is dead, long live privacy!». Es ging darum, historisch zu schauen, warum es seit Jahrzehnten die Ansicht gibt, dass Privacy tot ist und warum sie das vielleicht immer noch nicht ist. Das war der erste Teil; und im zweiten ging es darum, was wir technisch unternehmen können, um die Privatsphäre ein bisschen besser zu schützen.
«In Basel ist die Ausstattung für neue Professoren exzellent.»
Warum haben Sie nach Basel gewechselt?
Aus vielen Gründen. Einer davon war sicherlich, dass ich ungefähr zehn Jahre lang in England war. Seit dem Brexit war es dort gefühlt nicht mehr so schön wie zu Beginn. Ich habe mich dann relativ breit gefächert beworben. Die Uni Basel ist es aus vielen Gründen geworden: Zum einen ist sie eine sehr gute Uni, auch laut Hochschulrankings. Zum anderen ist sie zwar gross, das Departement Informatik und Mathematik aber recht klein und überschaubar. Dadurch ist die Atmosphäre sehr kollegial, fast schon familiär. Im Vergleich dazu hatte es in den Erstsemester-Vorlesungen in meiner vorherigen Uni 300 bis 400 Studierende. Da ist es sehr schwierig, diese persönlich kennen zu lernen. Im Gegensatz dazu habe ich hier in meiner Vorlesung auf Masterebene etwa 25 Studierende. Das macht die Arbeit viel angenehmer. Dazu kommt, dass in Basel die Ausstattung für neue Professoren exzellent ist – das macht auf der Forschungsseite vieles überhaupt erst möglich, was vorher aus Ressourcenmangel gescheitert wäre. Hinzu kommt, dass die Lebensqualität in der Umgebung eine deutliche Verbesserung zu jener in England ist – dieses Dreiländereck mit zwei verschiedenen Sprachen finde ich persönlich sehr schön.
Stammen Sie ursprünglich aus der Gegend?
Aufgewachsen bin ich in der Nähe von Frankfurt am Main und habe dann in Erlangen studiert. Also nicht unbedingt die Gegend.
Forschungsbereiche
Womit beschäftigt sich Ihr Lehrstuhl im Hinblick auf die Forschung?
Wir wollen hauptsächlich zwei Dinge tun. Das eine könnte man unter «Privatsphäre» zusammenfassen und das andere unter «Transparenz». Fangen wir mit Letzterem an: Da ist die Idee, dass wir all diese modernen Technologien verwenden und dann immer wieder in der Zeitung lesen müssen, dass ein Unternehmen ein Datenleck hatte oder dass beispielsweise Facebook 1,2 Milliarden Euro zu zahlen hat. Das sind aber nur Anekdoten, die uns nicht verraten, wie das Gesamtbild aussieht – also über viele Benutzer, viele Länder und viele verschiedene Anbieter hinweggesehen. Technisch gesehen kann man dann das Ganze aus einer experimentellen Sicht betrachten und versuchen, es systematisch zu untersuchen. Im Web-Kontext zum Beispiel wurden in Studien die Top-1000’000-Websites angeschaut. Das geht nur, wenn sie stark automatisiert durchgeführt werden, was eine Herausforderung sein kann. Diese Studien versuchen, auf einer ganz breiten Basis herauszufinden, wie es um verschiedene Aspekte der Privatsphäre in diesen neuen Technologien bestellt ist. Der Web-Kontext ist in den letzten 10, 15 Jahren schon relativ gut erforscht worden. Ebenfalls relativ oft untersucht wurden die Mobiltelefone. Dabei stellen sich mehr Herausforderungen, weil diese gegenüber einem Desktop-Rechner oder einem Webbrowser etwas geschlossener sind und man deshalb experimentell nicht so guten Zugang hat. Wenn man dann noch weiter geht, gibt es im Internet der Dinge (IoT) noch viel stärker geschlossene Geräte. Sollen eine oder mehrere Smart Cities angeschaut werden, dann sind diese vielleicht für Forschende sogar geografisch schlecht erreichbar. Es gibt also viele Herausforderungen, die man kreativ lösen muss, um Systeme grossflächig analysieren zu können.
Und im Bereich Privatsphäre?
Da gibt es zwei Herangehensweisen. Zum einen kann man Technologien bauen, die Unternehmen nutzen können, um ihre Dienste privatsphärenfreundlich anbieten zu können. Da gibt es schon viel Forschung und die entsprechenden Technologien werden zum Teil schon praktisch eingesetzt. Zum anderen kann man einzelnen Benutzern Technologien zur Verfügung stellen, mit denen sie sich selbst schützen können, egal mit wem sie interagieren. Auch da gibt es schon einige Arbeiten. Im Web-Kontext sind das bekannteste Beispiel wahrscheinlich die Adblocker, die nicht nur visuell die Anzeigen entfernen, sondern auch technisch verhindern, dass Unternehmen im Werbe-Ökosystem das Benutzerverhalten tracken können. Adblocker funktionieren zwar toll im Web-Umfeld, aber deutlich schlechter bei mobilen oder Internet-der-Dinge-Geräten. Noch ganz unklar ist, wie man Privatsphäre in zukünftigen Technologien wie Brain-Computer-Interfaces schützen kann. Brain-Computer-Interfaces werden derzeit schon im medizinischen Umfeld eingesetzt, aber irgendwann finden diese den Weg in Consumer-Geräte, und dann hätten wir gerne ein paar Technologien, mit denen wir die Privatsphäre, in diesem Fall unsere Gedanken und Gefühle, besser schützen können.
Nur in der Theorie oder auch als Produkt?
Zwischen Theorie und Produkt liegt ein breites Feld, und in Sachen Produkte sind wir an der Uni wohl relativ schlecht aufgestellt. Aber zum Prototypen können wir auf jeden Fall hingehen. Ich bin ohnehin ein Systemmensch, der nicht nur auf dem Papier sehen will, dass etwas gehen sollte, sondern ich will wissen, dass es auch wirklich funktioniert. Deshalb würden wir wohl einen Prototyp bauen und dann experimentell validieren, ob er auch tatsächlich den Schutz hergibt, den wir von ihm erwarten.
Die Universität Basel ist laut Isabel Wagner zwar gross, das Departement Informatik und Mathematik aber recht klein und überschaubar. Dadurch sei die Atmosphäre sehr kollegial, fast schon familiär.
Und danach wird die Lösung in die Privatwirtschaft hinausgetragen?
Das ist langfristig die Hoffnung. Im Moment habe ich noch einige Kontakte in England, aber in der Schweiz noch nicht so viel. Aber das wird sicher kommen. Allerdings ist die Privatwirtschaft sehr widerwillig, was Privatsphäretechnologien angeht. Das ist halt geprägt von Medienberichten über Google, Facebook und Microsoft, was die alles Böses tun. Wenn man von den Big Playern aber mal weggeht und die Masse aller anderen Unternehmen anschaut, ist das Bild viel besser. Und wenn man tatsächlich Technologien entwickelt, die für die Unternehmen nicht superkompliziert anzuwenden sind, dann hat das sicherlich viel Potenzial, denke ich.
Wie funktioniert der Austausch zwischen der Universität Basel und der Privatwirtschaft?
Dazu kann ich noch nicht viel sagen, da ich erst kurz an der Universität Basel bin. Wir haben aber einige Kontakte in die Privatwirtschaft sowie das Forschungsnetzwerk «Responsible Digital Society», an dessen Veranstaltungen auch Nicht-Uni-Vertreter, wie «Uptown Basel», teilnehmen. Beispielsweise besuchten wir letzte Woche das Security Operations Center von Axians Schweiz.
Auswirkungen von KI auf Cybersecurity
Kommen wir zum Hauptthema unseres Computerworld-Briefings: Welchen Einfluss hat künstliche Intelligenz (KI) auf Cybersecurity? Beginnen wir mal beim Negativen.
Da gibt es verschiedene Blickwinkel. Natürlich gibt es immer wieder Angriffe auf KI-Modelle, die theoretisch durchgespielt oder praktisch durchgeführt werden. Wenn man also KI dafür einsetzt, die Sicherheit in einem Unternehmen zu erhöhen, muss man damit rechnen, dass diese Angriffe auf KI-Modelle tatsächlich zur Anwendung gelangen. Entsprechend hat man durch den Einsatz von KI eventuell eine höhere Angriffsoberfläche als zuvor. Das wiederum kann zu Angriffen unter anderem auf die Privatsphäre führen. Ein Beispiel ist, dass die Angreifer versuchen, Verbindungen herzustellen zwischen namentlich bekannten Personen und den Daten dieser Person, die für das Training eines KI-Modells verwendet wurden. Wenn es sich beispielsweise um einen medizinischen Datensatz oder einen Datensatz mit Geolocation Traces handelt, dann sind das aus Privatsphäresicht schon ziemlich kritische Daten.
Welche Probleme können sich für Unternehmen spezifisch durch die Verwendung des populären ChatGPT ergeben?
Wenn ChatGPT unternehmensintern angewendet wird, während es auf den Servern von OpenAI läuft, lernt der Anbieter dadurch, was der Anwender mit dem Chatbot tut. Die Fragen landen bei OpenAI in der Datenbank, ohne dass genau bekannt ist, was dort mit diesen getan wird. Sicher hat man zuvor irgendwelchen AGBs zugestimmt und vermutlich steht darin, dass der Anbieter mit den Daten alles tun kann, was er will. Das gilt auch, wenn ChatGPT bei der Kundenkommunikation genutzt wird. Daraus resultieren Datenschutzprobleme.
«Durch den Einsatz von KI ist die Angriffsoberfläche möglicherweise grösser als zuvor.»
Was wäre eine mögliche Lösung?
Ein Unternehmen oder eine Organisation wäre vielleicht besser beraten, den Chatbot lokal zu betreiben, was wiederum relativ unattraktiv ist, weil man dafür Server sowie Fachpersonal braucht.
Eine weitere wichtige Sache, bei der oft KI eingesetzt wird, ist die automatisierte Entscheidungsfindung. Das müssen nicht unbedingt wichtige Entscheidungen sein, die Menschen betreffen. Ein Beispiel ist, dass ein Unternehmen Cyberangriffe erkennen will. Dann können das Entscheidungen sein, wie der Netzwerkverkehr klassifiziert und was davon dem IT-Security-Beauftragten gezeigt wird. Dabei besteht zwar weniger ein Datenschutzrisiko, und die Modelle sind auch deutlich kleiner, einfacher zu handhaben und weniger rechenintensiv. Doch auch hier kann es Probleme geben, etwa aufgrund von Miss-Klassifikationen im Falle eines gefährlichen echten Angriffs, den die KI nicht erkennt. Wenn sich der IT-Security-Beauftragte dann zu stark darauf verlässt, dass die KI den Output korrekt klassifiziert und darstellt, verpasst er möglicherweise wichtige Dinge, weil die KI etwas als ungefährlich einstuft oder Ungefährliches priorisiert und damit Zeit verschwendet, weil es manuell angeschaut werden muss. Das Ganze kann man noch weiterspinnen: Beispielsweise entscheidet sich ein Unternehmen, dass es ganz modern sein will und deshalb auf ein KI-Modell setzt, das während des Betriebs weiter lernt. Das Szenario könnte dann sein, dass ein sehr geduldiger Angreifer «little by little» der KI immer wieder kleine Anomalien vorlegt und dass diese so lernt, die kleinen Dinge als normal zu erkennen. Plötzlich kommt dann ein Angriff durch, weil die KI selbstständig weitergelernt hat, aber das Falsche.
Welche zusätzlichen Möglichkeiten eröffnet die Nutzung von KI den Angreifern, mal abgesehen von der reinen Textgenerierung?
Die KI könnte die Schwelle senken für die Fähigkeiten, die ein Angreifer braucht, um etwas erfolgreich zu attackieren. Er könnte beispielsweise einen von ChatGPT erstellten Code dafür nutzen, eine Cyberattacke zu planen oder einen Code für den Angriff zu schreiben.
Gibt es auch positive Einflüsse von KI auf die IT-Sicherheit?
Natürlich, es gibt zahlreiche Vorteile, die KI im Sicherheitsbereich bringen kann. Die Frage ist einfach, lohnt es sich diese zu nutzen, wenn man die Chancen ins Verhältnis zu den Risiken stellt, die man selbst ja nicht im Griff hat? Das ist immer eine Einzelfallentscheidung, schliesslich verfügen die meisten Unternehmen über eine IT, die von aussen zumindest teilweise erreichbar ist. Und bei 200 Mitarbeitenden oder mehr ist der Netzwerkverkehr so gross, dass dieser nicht mehr von einer einzelnen Person kontrolliert werden kann. Sie muss sich also auf irgendwelche Werkzeuge verlassen, die ihr dabei helfen, zu entscheiden, was sie wirklich angucken muss und was nicht. Das können traditionelle, regelbasierte Werkzeuge sein, die am Anfang einmal konfiguriert werden und dann sortiert das System vor. Oder sie geht einen Schritt weiter und verwendet die KI dazu, einmalig die Regeln für dieses traditionelle Werkzeug zu schreiben. Durch diese Kombination ist deutlich mehr Transparenz und Nachvollziehbarkeit gegeben, als wenn sich das Unternehmen ausschliesslich auf die KI verlässt.
Laut manchen Anbietern kann man das blind …
Ja, von denen wird oft das Blaue vom Himmel in Aussicht gestellt. Ich habe mir kürzlich angeschaut, was die grossen Anbieter auf ihren Websites alles versprechen, wenn man sich dort nach KI und Cybersecurity erkundet. Das ist zwar richtig beindruckend, aber technisch wenig detailliert erklärt.
Klingt nach einer Blackbox…
Dem ist so, wenn man sich von den grossen Versprechen verführen lässt. Man sollte deshalb einen Gang zurückschalten und zuerst nach genauen Technologiedetails fragen. Ansonsten hat man keine Ahnung, was genau passiert. Und Nichtwissen ist immer auch ein Risiko, das im Endeffekt das Sicherheitsrisiko erhöht.
«Die lange Dauer von Gesetzgebungsprozessen ist etwas, das die grossen Konzerne ganz gezielt ausnutzen.»
Was sollte ein IT-Entscheider den KI-Anbieter genau fragen?
Ich würde ganz generell mit Fragen anfangen wie: Was macht die KI genau? Welche Daten wurden eingesetzt, um sie zu trainieren? Und wie gross ist der Erfolg?
Wie misst sich der Erfolg von KI?
Im Machine-Learning-Bereich gibt es ein paar standardisierte Kennzahlen: die Rate, mit der Dinge korrekt klassifiziert werden, die Genauigkeit und die Trefferquote. Solche Zahlen sollte man bereitgestellt bekommen, denn sie sind sehr wichtig, damit man weiss, wie oft Fehlklassifikationen vorkommen können. Für Anbieter und Nutzer von Cloud-Diensten stellt sich zudem die wichtige Frage, welche Daten die Cloud verlassen und zum KI-Anbieter hinwandern und wie die Vertraulichkeit und Sicherheit der Daten trotzdem gewährleistet bleibt.
Sind die KI-Anbieter transparent mit ihren Zahlen?
Da fehlt es mir an Erfahrung. Aber es kann durchaus sein, dass sie mit ihren Zahlen sehr zurückhaltend sind. Und wahrscheinlich werden sie sich dahinter verstecken, dass sie dann Geschäftsgeheimnisse bezüglich ihrer KI bekannt geben müssten.
Regulierung von KI
Bräuchte es Ihrer Meinung nach eine Regulierung von KI?
In manchen Bereichen wäre eine Regulierung sehr sinnvoll. Ich nenne ein Beispiel: Vor kurzer Zeit war ein Fotograf in den Nachrichten, der nicht einverstanden ist, dass seine Fotos zum Training einer KI eingesetzt worden sind. Er sah weder Geld dafür, noch stimmte er zu. Er will nun erreichen, dass seine Fotos aus dem Trainingssatz entfernt werden. Der Entscheid ist noch hängig, soweit ich weiss. Das Urheberrecht wäre beispielsweise ein Bereich, dem eine klare Regelung gut tun würde, welche Trainingsdaten verwendet werden dürfen, welche Art von Zustimmung eingeholt werden muss und wie die Trainingsdaten entlohnt werden müssen. Die Trainingsdaten von ChatGPT sind ja enorm und umfassen neben riesigen Mengen an Internetdaten das gesamte Wikipedia sowie Hunderte Bücher. Vieles davon wäre urheberrechtlich geschützt – sicherlich viele der Bücher, ausser ihr Copyright ist bereits erloschen.
In der Schweiz erlischt es spätestens nach 70 Jahren.
Ja, und von Land zu Land ist das unterschiedlich. Und generell ist es bei Content, der im Internet zu finden ist, nicht immer einfach herauszufinden, unter welcher Lizenz welche Inhalte stehen. Die Herangehensweise, mal alle Bücher und Texte, die im Internet zu finden sind, fürs Training des Sprachmodells zu verwenden, ist durchaus ein bisschen fragwürdig. Bei KI-Bildgeneratoren ist das sehr ähnlich und vielleicht sogar noch etwas schlimmer, zumal bei Bildern generell davon ausgegangen werden kann, dass sie dem Urheberrecht unterliegen und nicht einfach so verwendet werden können. Aber aus Sicht der KI-Ecke heisst es dann, die Bilder sind ja gar nicht in unserem Algorithmus enthalten – die werden nur kurz angeschaut. Die KI kann dann aber Bilder produzieren im Stil von Picasso oder vom erwähnten Fotografen und so weiter. Sie sind also schon irgendwie im Algorithmus drin. Es wurden auch schon Trainingsdaten von KI-Modellen geleakt, die aufzeigten, dass diese nicht nur abstrakt lernen, sondern einzelne Bestandteile von Texten oder Bildern memorieren, die dann teilweise eins zu eins wieder aus den KI-Modellen extrahiert werden können. Die Anforderungen an Trainingsdaten sind deshalb etwas, so denke ich, das reguliert werden müsste.
ICT-Regulierungen können lange auf sich warten lassen. Beispielsweise bedient sich Google seit geraumer Zeit am Content von Online-Medien, ohne eine Entschädigung dafür zu leisten. Das ist schon lange bekannt, doch seitens der Gesetzgebung ist noch nicht viel passiert. Bis das bei der KI so weit wäre, dürfte der Zug abgefahren sein …
Das kann durchaus sein. Die lange Dauer von Gesetzgebungsprozessen ist auch etwas, das die grossen Konzerne ganz gezielt ausnutzen. Sie tun einfach mal was, und nach vielen Jahren wird es zur Normalität. Und dann wird es ganz, ganz schwierig, nochmals zu sagen, nee, so geht das nicht.
Was müsste Ihrer Meinung nach sonst noch reguliert werden?
Der Einsatzbereich von KI. In der Schweizer Datenschutz-Grundverordnung ist schon ein bisschen was drin – im Sinne wann ein Algorithmus keine Entscheidungen treffen darf, nämlich wenn wichtige Entscheidungen Einzelpersonen betreffen. Sowas bräuchte es auch bei der KI, eventuell gekoppelt mit Anforderungen an die Modellqualität: Wenn es sich um ein wichtiges Einsatzgebiet handelt, muss mindestens eine Genauigkeit, Trefferquote oder korrekte Klassifikationsrate von X gegeben sein. Allerdings dürfte es sehr schwierig werden, dass aus dem Gesetzgebungsprozess so etwas resultiert.
Ist Ihrer Meinung nach die Politik überhaupt genügend für die Problematik sensibilisiert – Politiker sind meist keine KI-Fachleute …
Das ist allein schon schwierig, weil Politiker, Juristen und Informatiker unterschiedliche Sprachen sprechen. Das erschwert den Dialog. Ich kann allerdings zwar wenig dazu sagen, über welches technische Wissen die Schweizer Politik verfügt. Es wäre natürlich gut, wenn sie sich eine gewisse Basiskompetenz aneignen könnte, und dann stellt sich die Frage, wie sie das machen kann.
Sie kann ja einfach ChatGPT fragen …
[lacht] Ich wollte eigentlich sagen, dass wir Fachleute die Dinge auch mal verständlich formulieren sollten.
Wichtig wäre zudem, dass sich die Konsumenten ihrer Eigenverantwortung bewusst sind.
Ja, wäre es. Allerdings ist das ein sehr schwieriges Spannungsfeld. Als Konsument findet man die ganzen neuen Features natürlich richtig grossartig, weil sie die Arbeit erleichtern, überraschenden Output erzeugen und für ein bisschen zusätzlichen Spass sorgen. Wenn man dann jedes Mal über technische Details und die grossen Implikationen dieser Technologie auf die Menschheit nachdenken muss, dann ist das eine grosse mentale Bürde.
Wie sollte Ihrer Meinung nach zukünftig mit KI umgegangen werden?
Ich denke, es ist sehr wichtig, dass man versucht, ein breites Verständnis dafür zu entwickeln, was KI konkret ist. Wie sie funktioniert, auf welchen Daten sie basiert und warum was passiert – nicht nur vom Output her. Von Vorteil wären deshalb erklärbare KI-Modelle oder solche, die sich selbst erklären. Zudem bräuchte es eine Art Sicherheitsnetz, wenn die KI für extrem wichtige Funktionen eingesetzt wird. Dann sollte man irgendwie erkennen können, wenn mit dem Modell etwas falsch läuft, und Mechanismen geplant und ausführbar haben, mit denen der Zustand wieder berichtigt werden kann. Zudem bräuchte es ein menschliches Oversight, ein Kontrollgremium.
Auch Sanktionsmöglichkeiten?
Das ist ein interessanter Aspekt. Ja, das wäre vielleicht eine gesetzgeberische Richtung: Dass die Hersteller von KI-Modellen belangt werden können, wenn sich diese unerwünscht verhalten. Doch auch hier gibt es sehr viele Faktoren, die berücksichtigt werden müssten, aber die Richtung wäre durchaus interessant.