Betriebsmodell „Private Cloud“
Für den Betrieb der Fabasphere im Betriebsmodell „Private Cloud“ gelten die folgenden Voraussetzungen.
Infrastruktur
Es wird die folgende Infrastruktur vorausgesetzt.
Kubernetes-Cluster
- Red Hat OpenShift (mind. Version 4.15) oder
- k3s (mind. Version 1.31.0)
Empfehlung: Für den Betrieb der Pods sollten mindestens sechs Server mit zumindest 768 GB Arbeitsspeicher und 32 CPU-Cores verwendet werden.
Datenspeicherung über NFS-Fileshare
- 3 x NFS-Fileshares (Version NFSv3 oder NFSv4.1)
Datenbank
- PostgreSQL (Version 17.6)
Container-Registry
- Container-Registry (zum Beispiel Habor oder JFrog Artifactory) zum Synchronisieren der Fabasphere-Images von registry.fabasoft.com
Betrieb
Es gelten die folgenden Voraussetzungen für den Betrieb.
Notwendige Services
- Loadbalancer (Empfehlung nginx)
- OpenLDAP (mind. Version 2.6.10)
Hinweis: Die notwendigen Services sind nicht Teil des Fabasphere-Deployments.
Optionale Services
- KEDA Operator (optional)
- Istio (optional)
- Logging-Stack des Kubernetes-Clusters
- Monitoring-Stack des Kubernetes-Clusters
Hinweis: Die optionalen Services sind nicht Teil des Fabasphere-Deployments.
Konfigurationsmanagement/Deployment
- Git (zum Beispiel GitLab, Gitea)
- Deployment-Werkzeug (zum Beispiel Argo CD)
- Alternativ mit Helm (Version 3)
External Cluster Access (TCP)
Die Bereitstellung von TCP/IP-Adressen für Services mit dem Servicetyp „LoadBalancer“ ist notwendig (z. B. MetalLB).
Mindbreeze AI
Mindbreeze AI wird auf dem gleichen Kubernetes-Cluster betrieben. Das benötigte Sprachmodell muss direkt, zum Beispiel von Hugging Face, bezogen werden. Mindbreeze AI benötigt zur Speicherung der für KI-Anwendungsfälle notwendigen Daten einen „Persistent Volume Claim“.
Empfehlungen:
- Zur Verbesserung der Performance wird der Betrieb von Mindbreeze AI Pods auf Servern mit GPU (Nvidia H100) empfohlen.
- Für den Betrieb von großen Sprachmodellen (LLM) wird die Bereitstellung eigener Server mit Grafikkarte (GPU) im Kubernetes-Cluster empfohlen.
- Zur Ausfallssicherheit wird der Betrieb von zwei Servern je LLM empfohlen.
- Als Grafikkarte wird je Server eine Nvidia H100 empfohlen, die jeweils vollständig dem LLM bereitgestellt wird.
- Das LLM sollte mindestens 7b Parameter aufweisen.
- Für eine allgemeinere Verwendbarkeit sollte das LLM mehrsprachig sein oder zumindest die verwendeten Sprachen gut unterstützen.
- Je nach Anwendungsfall sollte das LLM mindestens 8 bis 10 Token pro Sekunde und Benutzer bereitstellen.
- Das verwendete LLM sollte instruction-tuned oder chat-tuned sein.