RAG-Chatbot – Erste Schritte mit Open WebUI
Wer mit grossen Sprachmodellen (LLMs) arbeitet und dabei auf selbst gehostete RAG-Systeme setzt, stösst früher oder später auf OpenWebUI. Die Open-Source-Plattform bietet eine benutzerfreundliche Oberfläche, um mit LLMs über OpenAI-kompatible APIs zu interagieren. Neben klassischen Chatverläufen unterstützt OpenWebUI auch eigene Wissensdatenbanken, anpassbare Modelle und zahlreiche Konfigurationsmöglichkeiten.
Was RAG bedeutet und wie ein solches System funktioniert, erklärt Iwan Imsand in seinem Blogpost zum Use Case EGI AI ausführlich. Deshalb verzichten wir an dieser Stelle auf die Grundlagen und steigen direkt ein.
OpenShift – mit GPU
Für das Deployment von Open WebUI auf OpenShift kam das offizielle Helm-Chart zum Einsatz. Die Installation verlief weitgehend reibungslos – abgesehen von einigen Kleinigkeiten: Beim ersten Start generiert Open WebUI automatisch einen Schlüssel WEBUI_SECRET_KEY. Da OpenShift jedoch keinen Schreibzugriff ins Zielverzeichnis erlaubt, übergaben wir den Schlüssel als Umgebungsvariable ein.
Zusätzlich wurde eine Route erstellt, um das UI erreichbar zu machen:
oc create route edge --service open-webui
Nach dem ersten Start war die Benutzeroberfläche verfügbar – die Geschwindigkeit entsprach jedoch noch nicht den Erwartungen. Daher haben wir die Ressourcen-Anforderungen angepasst
resources:
requests:
cpu: "250m"
memory: 3Gi
Für das Ollama-Backend:
resources:
requests:
cpu: "1"
memory: 2Gi
Diese Anpassungen führten zu einer spürbaren Leistungssteigerung, allerdings war die Reaktionszeit noch nicht optimal. Durch gezielte Konfiguration leiteten wir das Ollama-Backend auf eine GPU-Node – vorausgesetzt, die Nodes sind entsprechend gelabelt und der GPU-Zugriff funktioniert.
Die GPU-Node läuft auf eigener Hardware und wird über Proxmox als Remote Node im OpenShift-Cluster eingebunden. Weitere Informationen zu Time Slicing, Node-Erkennung oder Setup-Details folgen später oder sind direkt beim AI-Team von Puzzle erhältlich
User Interface
Über die Oberfläche können Modelle direkt ausgewählt und via Ollama heruntergeladen werden. Es lassen sich mehrere Modelle gleichzeitig betreiben – ideal für Testszenarien oder produktive Workflows mit unterschiedlichen Anforderungen.
Open WebUI bietet eine breite Palette an Funktionen und Konfigurationsmöglichkeiten – insbesondere im Bereich Retrieval-Augmented Generation (RAG):
RAG – Eigene Dokumente einbinden
Im Bereich Workspace → Knowledge lassen sich eigene Dokumente hochladen – etwa PDFs, Markdown-Dateien oder einfache Textdateien.
Diese Inhalte können im UI eingebunden und in RAG-Szenarien verwendet werden.
Bei der Beantwortung einer Anfrage werden jene Dokumente berücksichtigt, die als relevant eingestuft wurden.
Zusätzlich werden Informationen zur Quelle und zur Relevanz des eingebundenen Inhalts angezeigt.
In den Admin-Einstellungen stehen verschiedene Extraction Engines und Embedding Models zur Auswahl – je nachdem, ob schnelle Suchen oder tiefere semantische Analysen bevorzugt werden.
Zur Extraktion von Informationen aus den eingebundenen Datenquellen bietet Open WebUI unterschiedliche Suchstrategien:
- Full Context Search: Alle gefundenen Dokumente werden vollständig in den Prompt übernommen – besonders geeignet bei überschaubaren Datenmengen.
- Hybrid Search mit Reranking: Kombination aus Keyword-basierter und semantischer Suche, ergänzt durch eine Gewichtung der Resultate. Diese Methode erzielt bei grösseren Datenmengen deutlich präzisere Ergebnisse.
Konfiguration
Prompts & Tools – Workflows auf Knopfdruck
Eigene Prompts können gespeichert und wiederverwendet werden – eine erhebliche Erleichterung bei sich wiederholenden Aufgaben. Zusätzlich lassen sich Tools integrieren, etwa für API-Requests, Datenbankabfragen oder einfache Skripte. Viele dieser Tools stammen direkt aus der Community.
Sicherheit – SSO via OIDC
Bei der Authentifizierung unterstützt Open WebUI Single Sign-On via OpenID Connect. So kann das System an bestehende Identity Provider angebunden werden.
Weitere Highlights – Interpreter, Websearch & Quellenangaben
Mit dem integrierten Code Interpreter können Zahlen analysiert, Diagramme erstellt oder Python-Snippets direkt im Chat ausgeführt werden.
Das Web Search Plugin ermöglicht eine aktive Online-Suche – hilfreich für aktuelle Informationen oder externe Datenquellen.
Fazit und Ausblick
Open WebUI erweist sich als leistungsfähige und flexible Plattform mit aktiver Community und Open-Source-Basis. Durch die hohe Konfigurierbarkeit und die Vielzahl an unterstützten Funktionen ist es besonders gut für explorative RAG-Szenarien geeignet.
Weitere Einblicke, Best Practices und Erfahrungen mit anderen RAG-Strategien folgen – bei Interesse lohnt sich ein Austausch mit dem AI-Team von Puzzle.