Déployer une IA générative privée et souveraine

Par Dylan Pacques

L'intelligence artificielle générative offre d'immenses gains de productivité, mais envoyer les documents internes, les codes sources ou les données clients de votre entreprise vers des API SaaS tierces constitue un risque inacceptable de fuite d'informations.

La solution pour garantir la souveraineté totale de vos données est l'auto-hébergement. Ce guide détaille l'installation d'Ollama (le moteur d'inférence) et d'Open WebUI (l'interface utilisateur) pour faire tourner des modèles ouverts directement sur votre infrastructure Cloud VPC.

Prérequis

Une instance Cloud VPC avec une puissance de calcul suffisante (l'idéal étant une allocation GPU, ou a minima un grand nombre de vCores pour une inférence CPU).
Un serveur sous Debian 12 ou Ubuntu.
Docker et Docker Compose installés.

Étape 1 : Installer Ollama et télécharger un modèle

Ollama est le moteur léger et surpuissant qui va gérer l'exécution locale des modèles de langage (LLM). Son installation sous Linux est extrêmement simple.

Terminal - Serveur IA

curl -fsSL https://ollama.com/install.sh | sh

Une fois le service démarré, nous allons récupérer un modèle performant. Pour ce tutoriel, nous utiliserons Gemma, un modèle ouvert très efficace pour les tâches textuelles et qui offre un excellent ratio qualité/consommation de ressources.

ollama pull gemma

Étape 2 : Déployer l'interface Open WebUI

Pour que vos collaborateurs puissent utiliser cette IA sans passer par le terminal, nous allons déployer Open WebUI. C'est une interface conviviale, semblable aux standards du marché, qui se connecte nativement à Ollama.

Nous utilisons Docker pour isoler l'application web :

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Reverse Proxy Requis

L'interface est désormais accessible sur le port 3000. Comme toujours chez Plennyx, n'exposez pas ce port directement sur Internet. Placez-le derrière un reverse proxy (Nginx) et sécurisez-le via HTTPS et un filtrage IP.

Étape 3 : Le RAG (Retrieval-Augmented Generation)

La véritable puissance d'Open WebUI réside dans sa fonctionnalité RAG intégrée. Cela permet à votre modèle (Gemma) de "lire" vos documents internes pour vous fournir des réponses basées sur vos propres données, et non seulement sur ses connaissances générales.

Depuis l'interface web, allez dans la section "Documents" (Workspace). Par exemple, vous pouvez injecter l'intégralité de vos documentations de supervision Zabbix ou vos schémas réseau.

Une fois les documents analysés et vectorisés localement, demandez à l'IA : "Comment est configuré le proxy de notre infrastructure ?". L'IA ira chercher la réponse directement dans vos documents confidentiels. Aucun octet ne quitte votre instance VPC Plennyx.