

Kit Ollama IA Locale – Serveur LLM privé sur Raspberry Pi 5 16GB + NVMe 512 Go
669,00 € TTC
- LLM privé sur Raspberry Pi 5 16GB + NVMe 512 Go – Ollama + Open WebUI préinstallés
- 2 modèles préchargés (gemma3:1b + llama3.2:3b) – aucune donnée envoyée dans le cloud
- RGPD natif, sans abonnement – idéal avocats, médecins, RH, journalistes, makers IA

Kit Ollama IA Locale – Serveur LLM privé sur Raspberry Pi 5 16GB + NVMe 512 Go
669,00 € TTC
- Description
Description
Kit Ollama IA Locale : votre LLM privé qui reste chez vous, sans cloud, sans abonnement
Le Kit Ollama IA Locale MonRaspberry est une solution clé en main pour exécuter des modèles de langage (LLM) en local, directement sur votre Raspberry Pi 5, sans envoyer la moindre donnée dans le cloud. Une vraie alternative souveraine à ChatGPT, Claude, Gemini ou Copilot pour les professionnels manipulant des données sensibles (avocats, médecins, RH, comptables, journalistes, chercheurs) et les passionnés d’IA qui veulent comprendre, expérimenter et contrôler leur intelligence artificielle.
Construit autour d’un Raspberry Pi 5 16GB couplé à un SSD NVMe Waveshare 512 Go, le kit est livré prêt à brancher avec Ollama installé via Docker, deux modèles préchargés (gemma3:1b et llama3.2:3b), et l’interface web Open WebUI accessible depuis n’importe quel appareil de votre réseau local. Branchez l’alimentation, ouvrez votre navigateur, et discutez avec votre IA en moins de 60 secondes — exactement comme ChatGPT, mais 100 % chez vous.
Pourquoi un ChatGPT privé sur Raspberry Pi ?
- Confidentialité totale – vos prompts ne quittent jamais votre réseau local
- Conformité RGPD native – aucune donnée envoyée à OpenAI, Anthropic ou Google
- Aucun abonnement – contrairement à ChatGPT Plus (~22 €/mois) ou Claude Pro (~22 €/mois)
- Pas de limites de tokens ni de quota – discutez autant que vous voulez
- Fonctionne hors ligne – aucune connexion internet requise une fois installé
- Réutilisation des données pro sans risquer une fuite vers un service tiers
- Idéal pour comprendre l’IA de l’intérieur : modèles, prompts, paramètres, RAG…
- Faible consommation – ~7 W au repos, bien moins qu’un PC dédié
Spécifications techniques
- Carte : Raspberry Pi 5 16GB officiel (BCM2712 quad-core Cortex-A76 @ 2,4 GHz)
- Stockage : SSD NVMe Waveshare 512 Go (PCIe Gen 3)
- Boîtier : Argon NEO 5 + extension NVMe (dissipation passive premium, idéale pour la charge IA continue)
- Alimentation : bloc officiel USB-C 45 W
- Connectivité : Gigabit Ethernet + Wi-Fi 5 GHz dual-band
- Écran (config) : câble Micro-HDMI vers HDMI 1 m inclus
- OS : Raspberry Pi OS Lite 64 bits, locale FR, clavier AZERTY, fuseau Europe/Paris
- Hostname : ollama-pi (ou ip locale)
- Capacité : 1 à 2 utilisateurs simultanés (dépend du modèle utilisé)
Stack logicielle préinstallée
- Docker + Ollama natif (dernière version stable)
- Open WebUI (interface ChatGPT-like accessible via http://ip:3000)
- Modèles préchargés :
- gemma3:1b (Google, 1 milliard de paramètres) – ultra-rapide, idéal pour Q&A, résumés, recherches
- llama3.2:3b (Meta, 3 milliards de paramètres) – plus précis, idéal rédaction, raisonnement, code léger
- Service systemd ollama.service – démarrage auto au boot
- Open WebUI persistant en Docker – redémarrage auto en cas de crash
- API Ollama exposée sur le port 11434 (compatible avec n8n, Home Assistant, scripts Python…)
- Mises à jour système appliquées
- SSH activé (port 22, mot de passe à changer au premier login)
Open WebUI : ChatGPT-like, mais chez vous
Une fois le kit branché, ouvrez votre navigateur sur http://ollama-pi:3000 (ou l’IP du Pi) depuis n’importe quel appareil de votre réseau (PC, Mac, smartphone, tablette). Vous accédez à une interface quasi-identique à celle de ChatGPT :
- Chats multiples avec historique persistant
- Sélection du modèle en un clic (gemma3:1b ou llama3.2:3b)
- Personnalisation des prompts système et création de “personas”
- Multi-utilisateurs avec authentification
- RAG (Retrieval-Augmented Generation) – chargez vos PDF, docs, sites pour interroger votre base documentaire
- Markdown, code highlight, copier/coller comme ChatGPT
- Mobile-friendly – fonctionne parfaitement sur smartphone
Modèles préchargés : que font-ils ?
🚀 gemma3:1b – Le rapide
- 1 milliard de paramètres, modèle Google ultra-léger
- Vitesse de réponse : très rapide sur Raspberry Pi 5
- Idéal pour : questions courtes, résumés, traduction, autocomplete, intégration dans des scripts
- Cas d’usage type : assistant Home Assistant, classement d’emails, scripts d’automatisation
🧠 llama3.2:3b – Le polyvalent
- 3 milliards de paramètres, modèle Meta très réputé
- Vitesse de réponse : satisfaisante sur Pi 5 16GB (~5-15 tokens/s selon la requête)
- Idéal pour : rédaction d’emails et de notes, raisonnement, code simple, conversations longues
- Cas d’usage type : rédaction quotidienne, brainstorming, prise de notes augmentée, RAG sur vos documents
Vous pouvez à tout moment installer d’autres modèles depuis le catalogue Ollama (ollama pull mistral, ollama pull phi3, ollama pull qwen2.5, etc.).
Cas d’usage professionnels (données sensibles)
- Cabinets d’avocats – analyse de pièces, brouillons de courriers sans envoi cloud
- Professions médicales – aide à la rédaction de comptes-rendus, conformité RGPD
- Cabinets comptables / RH – traitement de données salariales sans risque
- Journalistes & enquêteurs – analyse de sources sensibles sans laisser de trace cloud
- Recherche académique – manipulation de jeux de données non publiques
- Entreprises soumises NIS2 / DORA – souveraineté numérique européenne
- Cabinets de conseil – brainstorming sur missions confidentielles
- Auteurs & éditeurs – rédaction sans alimenter les datasets d’entraînement de tiers
Cas d’usage passionnés & makers
- Comprendre l’IA générative en pratique, sans payer un cloud GPU
- Expérimenter le prompt engineering sans limite de tokens
- Intégrer l’IA dans Home Assistant via l’API Ollama (port 11434)
- Automatiser des workflows via n8n / Node-RED + Ollama local
- Créer son propre RAG documentaire (PDF, Markdown, sites)
- Assistant code pour ses scripts Python / Bash en VS Code
- Projets éducatifs avec étudiants en IA
Configuration en 60 secondes
- Sortez le Raspberry Pi 5 préinstallé du carton
- Branchez l’alimentation 45 W, le câble HDMI et le câble Ethernet sur la box
- Allumez : Ollama et Open WebUI démarrent automatiquement
- Notez l’IP locale affichée à l’écran
- Sur n’importe quel appareil du réseau, ouvrez http://<ip>:3000
- Créez votre compte admin et commencez à dialoguer avec votre IA privée !
API Ollama : connectez-la à vos outils
Le port 11434 (API Ollama) est exposé sur votre réseau local. Vous pouvez ainsi connecter votre IA locale à :
- Home Assistant (intégration “Ollama” native depuis 2024)
- n8n et Node-RED pour des workflows IA
- Continue.dev ou Cody dans VS Code pour l’assistance code
- Vos propres scripts Python (
requests,ollama-python) - Obsidian avec le plugin Ollama (notes augmentées)
- Logseq, AppFlowy, Joplin et autres outils compatibles
Performances réalistes : à quoi s’attendre ?
Le Raspberry Pi 5 16GB n’est pas un GPU NVIDIA H100. Soyons clairs :
- gemma3:1b : très rapide, instantané pour les tâches simples
- llama3.2:3b : ~5 à 15 tokens/seconde selon les prompts (vitesse de lecture humaine)
- Modèles 7B : possibles mais lents (~1-3 tokens/s)
- 1 à 2 utilisateurs simultanés recommandés (la 3ᵉ requête simultanée crée une file d’attente)
C’est parfait pour un usage individuel ou en petite équipe, en remplacement d’un abonnement ChatGPT/Claude personnel. Pour un usage entreprise multi-utilisateurs simultanés ou des modèles 13B+, il faudra un serveur GPU dédié.
Contenu de la boîte
- 1x Raspberry Pi 5 16GB préinstallé dans boîtier Argon NEO 5
- 1x SSD NVMe Waveshare 512 Go (OS + Ollama + 2 modèles préchargés)
- 1x Alimentation officielle USB-C 45 W
- 1x Câble Micro-HDMI vers HDMI 1 m
- Support MonRaspberry inclus
Questions fréquentes (FAQ)
Est-ce vraiment 100 % privé ?
Oui. Aucune donnée n’est envoyée vers un service tiers. Tout (prompts, réponses, historique, documents RAG) reste sur le SSD NVMe de votre Raspberry Pi, accessible uniquement sur votre réseau local. Vous pouvez même le déconnecter d’internet : Ollama continue de fonctionner.
Quelle différence avec ChatGPT ou Claude ?
ChatGPT et Claude sont des services cloud propriétaires avec des modèles très puissants (GPT-4, Claude Opus) mais qui exigent l’envoi de vos données à OpenAI / Anthropic. Le Kit Ollama vous offre un service moins puissant mais 100 % local et privé, avec des modèles open source comme Llama, Gemma, Mistral, Qwen.
Peut-on installer d’autres modèles que ceux fournis ?
Oui, totalement. Connectez-vous en SSH et lancez par exemple ollama pull mistral:7b, ollama pull phi3:mini, ollama pull qwen2.5:3b. Le catalogue complet est sur ollama.com/library. Vous avez 512 Go de NVMe pour stocker des dizaines de modèles.
Combien de personnes peuvent l’utiliser en même temps ?
Pour des prompts courts en gemma3:1b, plusieurs utilisateurs peuvent dialoguer en parallèle. Pour des longues générations en llama3.2:3b, comptez 1 à 2 utilisateurs simultanés avec un confort optimal — au-delà, les requêtes sont mises en file d’attente.
Faut-il une connexion internet pour l’utiliser ?
Non, une fois le kit installé et les modèles préchargés. Vous pouvez le déconnecter d’internet et continuer à dialoguer avec votre IA privée — utile pour des usages 100 % offline (déplacement, terrain, sécurité maximale).
Puis-je le connecter à Home Assistant ?
Oui, l’API Ollama est exposée sur le port 11434. L’intégration officielle “Ollama” de Home Assistant permet de l’utiliser pour des assistants vocaux locaux, des automatisations augmentées par IA, ou un agent conversationnel domotique.
Est-ce conforme RGPD pour mes données client ?
Le Kit Ollama est parfaitement compatible RGPD car aucune donnée n’est transférée à un sous-traitant non maîtrisé. C’est même l’un des seuls moyens d’utiliser un LLM dans un cadre professionnel manipulant des données sensibles sans risquer une fuite ou une non-conformité (avocats, médecins, RH, juridique).
Y a-t-il un abonnement ?
Aucun. Paiement unique, IA à vie. Coût électrique d’environ 10 € par an en fonctionnement 24/7, à comparer aux ~265 €/an d’un abonnement ChatGPT Plus.
Le kit est-il évolutif ?
Oui. Vous pouvez à tout moment installer de nouveaux modèles, brancher un disque externe, ajouter un GPU AI HAT+ Hailo (compatible Pi 5) pour accélérer certaines inférences, ou ajouter d’autres outils (RAG, agents, fine-tuning léger).







