Betriebsmodell „Private Cloud“

Für den Betrieb der Fabasphere im Betriebsmodell „Private Cloud“ gelten die folgenden Voraussetzungen.

Infrastruktur

Es wird die folgende Infrastruktur vorausgesetzt.

Kubernetes-Cluster

Red Hat OpenShift (mind. Version 4.15) oder
k3s (mind. Version 1.31.0)

Empfehlung: Für den Betrieb der Pods sollten mindestens sechs Server mit zumindest 768 GB Arbeitsspeicher und 32 CPU-Cores verwendet werden.

Datenspeicherung über NFS-Fileshare

3 x NFS-Fileshares (Version NFSv3 oder NFSv4.1)

Datenbank

PostgreSQL (Version 17.6)

Container-Registry

Container-Registry (zum Beispiel Habor oder JFrog Artifactory) zum Synchronisieren der Fabasphere-Images von registry.fabasoft.com

Betrieb

Es gelten die folgenden Voraussetzungen für den Betrieb.

Notwendige Services

Loadbalancer (Empfehlung nginx)
OpenLDAP (mind. Version 2.6.10)

Hinweis: Die notwendigen Services sind nicht Teil des Fabasphere-Deployments.

Optionale Services

KEDA Operator (optional)
Istio (optional)
Logging-Stack des Kubernetes-Clusters
Monitoring-Stack des Kubernetes-Clusters

Hinweis: Die optionalen Services sind nicht Teil des Fabasphere-Deployments.

Konfigurationsmanagement/Deployment

Git (zum Beispiel GitLab, Gitea)
Deployment-Werkzeug (zum Beispiel Argo CD)
Alternativ mit Helm (Version 3)

External Cluster Access (TCP)

Die Bereitstellung von TCP/IP-Adressen für Services mit dem Servicetyp „LoadBalancer“ ist notwendig (z. B. MetalLB).

Mindbreeze AI

Mindbreeze AI wird auf dem gleichen Kubernetes-Cluster betrieben. Das benötigte Sprachmodell muss direkt, zum Beispiel von Hugging Face, bezogen werden. Mindbreeze AI benötigt zur Speicherung der für KI-Anwendungsfälle notwendigen Daten einen „Persistent Volume Claim“.

Empfehlungen:

Zur Verbesserung der Performance wird der Betrieb von Mindbreeze AI Pods auf Servern mit GPU (Nvidia H100) empfohlen.
Für den Betrieb von großen Sprachmodellen (LLM) wird die Bereitstellung eigener Server mit Grafikkarte (GPU) im Kubernetes-Cluster empfohlen.
Zur Ausfallssicherheit wird der Betrieb von zwei Servern je LLM empfohlen.
Als Grafikkarte wird je Server eine Nvidia H100 empfohlen, die jeweils vollständig dem LLM bereitgestellt wird.
Das LLM sollte mindestens 7b Parameter aufweisen.
Für eine allgemeinere Verwendbarkeit sollte das LLM mehrsprachig sein oder zumindest die verwendeten Sprachen gut unterstützen.
Je nach Anwendungsfall sollte das LLM mindestens 8 bis 10 Token pro Sekunde und Benutzer bereitstellen.
Das verwendete LLM sollte instruction-tuned oder chat-tuned sein.

Betriebsmodell „Private Cloud“

Infrastruktur

Betrieb

Mindbreeze AI

PDF herunterladen

PDF herunterladen