Viele Hochschulen fragen sich – und uns – wieviel Budget sie monatlich für die Bereitstellung von KI-Modellen für ihre User reservieren sollen.
Auf diese Frage verlässliche und allgemeingültige Antworten zu finden, ist kaum möglich. Allerdings können wir von den Erfahrungen der RWTH Aachen in den vergangenen Monaten berichten, um den Hochschulen eine Orientierung zu ermöglichen.
Zunächst stellen sich bei der Budgetierung drei wesentliche Fragen:
Frage 1: Sollen (auch) kostenpflichtige kommerzielle Modelle oder (nur) kostenfreie Open Source Modelle genutzt werden, wobei “kostenfrei” hier bedeutet, dass keine Nutzungsgebühren an Dritte abgeführt werden müssen.
Frage 2: Wenn auch kostenpflichtige Modelle zum Einsatz kommen: wie groß soll das monatliche Budget für die Nutzung kostenpflichtiger Modelle bemessen sein?
Frage 3: Wie sollen der monatliche Kostenrahmen für die Nutzung kostenpflichtiger Modelle wirksam begrenzt werden?
Anmerkung: Die Wahl des Monats als Einheit für die Budgetierung ist in der Tatsache begründet, dass die Anbieter kommerzieller KI-Modelle i.d.R. im Monatsturnus abrechnen.
Monatliches Budget
Die RWTH hat sich in Beantwortung von Frage 1 für den Mischbetrieb von kommerziellen und Open Source Modellen entschieden. Die lokale Instanz von KI:connect stellt alle aktuellen Modelle der Firma OpenAI zur Verfügung. Zum aktuellen Zeitpunkt sind das ChatGPT 4o-mini und 4o, o1, o3-mini und o3, 04-mini und 4o-mini-high. Zusätzlich sind einzelne Open Source Modelle wählbar. Die Bepreisung der Modelle entspricht in etwa der Preisübersicht für Microsoft Azure OpenAI Services.
Nachfolgend wird lediglich die Budgetierung der Mitarbeitenden beschrieben, da nur für diese Zielgruppe bereits belastbare Daten vorliegen.
Die RWTH hat knapp über 9.000 Beschäftigte in Wissenschaft, Technik und Verwaltung. Als erste grobe Näherung hat es sich bei anderen Hochschulen bewährt, die Beschäftigtenanzahl der RWTH mit der Ihrer Hochschule ins Verhältnis zu setzen und alle im Weiteren genannten Zahlen mit diesem Verhältnis zu skalieren.
Die RWTH hat einen Kostenrahmen von 10.000,- EUR pro Monat für die Nutzung von KI:connect durch die Beschäftigten reserviert. Dieser Betrag ist Grundlage des “Freivolumens” für alle Beschäftigten. Das Freivolumen deckt hierbei ausschließlich die Nutzung der KI-Modelle über die Benutzeroberfläche ab. Wenn Forschungsprojekte die KI-Modelle über Programmierschnittstellen nutzen möchten, erhalten sie dafür eine eigene Kostenstelle und werden individuell abgerechnet.
Die RWTH hat dieses Freivolumen nicht auf personenbezogene Credits pro Monat heruntergebrochen, sondern als gemeinschaftliches Kostenelement für alle Mitarbeitenden festgelegt. Dadurch kann es nicht passieren, dass Personen durch intensive Nutzung des Dienstes ihre Credits deutlich vor Ablauf eines längeren Berechnungszeitraums aufgebraucht haben und praktisch von der Weiternutzung ausgeschlossen sind.
Gleichzeitig birgt dies die Gefahr, dass durch intensive Nutzung eine Überschreitung des monatlichen Budgets stattfindet. Es müssen entsprechende Maßnahmen zur Kostenbegrenzung getroffen werden.
Möglichkeiten zur Begrenzung des Kostenrahmens
Die Begrenzung des Kostenvolumens kann auf drei Weisen geschehen:
-
Ein fixer Deckelbetrag pro Monat, bei dessen erreichen das System im äußersten Falle abgeschaltet wird.
-
Individuelle Nutzungslimits pro Person, die für verschiedene Personengruppen unterschiedlich eingestellt sein können.
-
Eine Kombination aus beidem.
Die RWTH hat sich für Variante 3 entschieden. Auf Basis der Nutzungsevaluation haben wir Anlass zu der Einschätzung, dass damit eine richtige Wahl getroffen wurde.
Vorgehen an der RWTH
Auf Basis des genannten Monatsbudgets haben wir zunächst ein so genanntes monatliches “Soft Limit” im OpenAI Backend hinterlegt, das bei ca. 90% des monatlichen Gesamtbudgets liegt. Bei Erreichen des Soft Limits wird der Zugang nicht direkt gesperrt, sondern die IT-Administrator*innen benachrichtigt. Diese treffen dann in Absprache mit der Leitung eine Entscheidung über das weitere Vorgehen für den laufenden Monat. Der Puffer von 10% des Monatsbudgets gewährt zum einen eine Fehlertoleranz, falls der “Soft Limit Alert” nicht sofort berücksichtigt werden sollte. Zum anderen ermöglicht er eine Flexibilisierung der Nutzung in besonders kostenintensiven Monaten (erfahrungsgemäß z.B. der letzte Semestermonat).
Zusätzlich zum Soft Limit haben wir in der KI:connect Plattform harte Nutzungslimits für alle KI-Modelle hinterlegt. Dies sind personenindividuelle (unter-)tägliche Prompt-Limits für verschiedenen KI-Modelle und verschieden Nutzendengruppen. Aktuell könnenb die Beschäftigten pro Stunde max. 100 Prompts für 4o, o3-mini und o3-mini-high, 15 Prompts für o1 und 1.000 Prompts für 4o-mini absenden.
Erfahrungen aus der Praxis
Von unseren Beschäftigten sind ca. 10% (also knapp 1.000 Personen) wöchentlich mindestens 1x auf der Plattform aktiv. Eine kleinere Menge von diesen können als “Power-User” gelten, die täglich mehrfach auf den Dienst zugreifen. Stärker aufgelöste Daten stehen uns aus Datenschutzgründen nicht zur Verfügung, da für die Evaluation keine Einzeldaten erhoben werden.
Die meisten User erreichen die gesetzten (unter-)täglichen Prompt-Limits nicht, lediglich die Power-User stoßen häufiger an die Prompt-Limits. Der Großteil der User hat in RWTHgpt enstprechend eine uneingeschränkte Nutzungserfahrung, während einzelne der Power-User gelegentlich an die stündlichen Prompt-Limits stoßen.
Naturgemäß entsteht bei diesen Power-Usern ein gewisser Unmut, der uns dann auch über den IT Servicedesk erreicht. Gleichzeitig nähert sich das Kostenvolumen für RWTHgpt seit Freischaltung der kostenintensiveren Reasoning-Modelle (o1 und o3) regelmäßig dem Soft Limit, womit das bereitgestellte Budget nahezu vollständig ausgeschöpft wird. Das IT Center der RWTH überwacht das entstehende Kostenvolumen deshalb engmaschig und nimmt regelmäßig kleinere Korrekturen an den Prompt-Limits vor.
Wenn wir also keine Prompt-Limits vorsähen, sondern lediglich eine globale Deckelung über Soft Limits beibehielten, wären zwei Entwicklungen zu erwarten:
-
Deutliches Kostenwachstum, das vor allem durch die Power-User getragen wird.
-
Regelmäßige Notwendigkeit zum Abschalten des Dienstes vor Monatsende, sobald durch das erhöhte Promptvolumen der Power-User das Monatsbudget aufgebraucht ist.
Wir halten eine solche “First Come – First Prompt, bis der Topf leer ist”-Policy für erstens nicht gerecht, zweitens unvorhersehbar für die Mitarbeitenden und drittens nicht kommunizierbar. Eine Nachricht wie “Für die verbleibenden X Tage bis zum Monatsende kann die KI nicht mehr genutzt werden, weil unsere Hochschule kein weiteres Budget bereitstellt.” ist aus unserer Sicht ein Worst Case, der unter keinen Umständen eintreten sollte. Gleichzeitig stellt er eine realistische Perspektive dar, wenn keine individuellen Nutzungslimits eingezogen werden.
Wir halten es deshalb für die deutlich bessere Alternative, unter den wenigen Power-Usern in Einzelfällen Unzufriedenheit zu generieren, aber eben nicht vor Ablauf des Monats das gesamte System für alle Nutzenden abschalten zu müssen.
Ausblick
Für die nahe Zukunft steht die Auswahl von Kostenstellen auf der Entwicklungs-Roadmap von KI:connect. Im Ergebnis wird diese Funktion darauf hinauslaufen, dass einzelne Einrichtungen in den Hochschulen (z.B. Lehrstühle oder Verwaltungsbereiche) eigene Kostenstellen hinterlegen können. Wenn dann das individuelle Freivolumen aufgebraucht ist, können Personen – bei entsprechender Berechtigung – auf die Kostenstelle ihrer Einrichtung umschalten und dann “auf eigene Rechnung” weiterprompten.
Zusammengefasst: das Projekt KI:connect empfiehlt dringend a) das Setzen eines Soft Limits im Administrationsbereich des LLM und b) dessen Kombination mit Nutzungslimits (Prompt-Limits) innerhalb von KI:connect. Nur auf diese Weise können das Nutzendenverhalten geeignet gesteuert und ein zeitweises Abschalten des Dienstes vermieden werden.