Wir trafen uns letzte Woche zum zweiten AI-compare-Meetup, Bitwäscherei, früher Hochsommer, Eishockey-Viertelfinale Schweiz-Schweden. Ablenkung genug also, dennoch resultierten zwei Stunden angeregte Diskussion, rund um die Frage: wer vergleicht da Modelle nach welchen Kriterien? Und für wen? Das sind keine allzu theoretischen Fragen, führen sie doch direkt zum Problem, wie man einen solchen AI Vergleichstest am besten aufbereitet und präsentiert, als Webseite.
Zum Einstieg gab es aber einen kleinen Zaubertrick, mentalist style: Flo, zum ersten Mal zu Gast, forderte uns auf, ein Sprachmodell der Wahl nach einer Zufallszahl zwischen 1 und 100 zu fragen. Er wisse was herauskommt und schrieb sich während des Promptens eine Zahl auf die Hand. ChatGPT generierte: 73. Claude generierte: 73. In Flos Handfläche stand: 73! Später zerfledderte das Ganze dann ein wenig, bei weiteren Tests, aber es blieb ein schöner Wtf-Moment: dass sich ein Modell auf irgendeine besonders attraktive "zufälligste" Zahl einschiesst, mag ja noch nachzuvollziehen sein, aber wieso steht da ausgerechnet 73 als sozusagen kanonische Zahl, über diverse Modelle hinweg? Absprachen in den Chefetagen, Maschinen-Verschwörung, kollektives Unterbewusstes der Modelle? Wir wurden für einen Moment fast ein wenig spirituell.
Dann aber AI-compare: Es gab zwei Vorschläge von Robert und Roland zu einem möglichen Grunddesign, einmal eher wiki-like, einmal eher im Stil eines Warentests. Die Designs waren unbedingt als Diskussionsanstoss gedacht, nicht als fertige Lösungen - und wirkten auch entsprechend. Es wurde jedenfalls klar, dass man mit einem paternalistischen 'wir wissen worauf es ankommt und bestimmen die Qualitätskriterien'-Selbstverständnis bei einem Handy- oder Haferflocken-Vergleich vielleicht durchkommt, nicht aber bei Sprachmodellen, die ganz anders in soziale Dynamiken einbezogen sind und auch in diese eingreifen. Also braucht es zunächst einmal Austausch: Workshops, um mit verschiedenen Interessengruppen in Kontakt zu kommen. Wir müssen zuhören und destillieren: was erwartet man sich von Sprachmodellen, wo liegen die Bedenken, an welche Kriterien haben wir vielleicht noch nicht gedacht. Ein Rundumschlag mit möglichst vielen Beteiligten wird wohl nicht reichen, also streben wir eine Reihe von Diskussionsrunden an, in verschiedenen Kontexten: akademische Zirkel, Aktivismus/Kunst, Zivilgesellschaft. Dafür braucht es dann auch entsprechende Partnerschaften. Und auch schon mal Geld? Eine gute Frage, von Philipp eingeworfen, als es 1:1 steht. Roland sondiert das mal, mit Mercator zum Beispiel. Das könnte sich ja womöglich sowieso zu einem nachgefragten Format entwickeln, solche Workshops rund um die Frage, wie man Modelle miteinander vergleichen soll und kann? Bzw. Aufklärung/Austausch rund um Modell-Vielfalt und jeweilige Stärken und Schwächen.
Und dann beim Rauchen draussen noch der schöne Moment, als es um den noch sehr vage als Kriterium formulierten 'Umgang mit Bias' ging - da tauge der Mensch ja auch nicht unbedingt als Goldstandard. Beziehungsweise: es wäre ja eigentlich spannend, ihn mit abzugleichen im Test. Ja, wie schlägt sich der Mensch als meat computer denn so, verglichen mit den immer zahlreicheren Modellen? Womöglich landet er ungefähr auf Rang 73, zufälligerweise.