Skip to Content
👋 Willkommen bei HowToUseOpenClaw Schnellstart
GatewayLokale Modelle

Lokale Modelle

Lokal ist machbar, aber OpenClaw setzt auf großen Kontext und starke Abwehr gegen Prompt-Injection. Kleine Karten kürzen Kontext und schwächen Sicherheit. Ziel hoch: ≥2 volle Mac Studios oder vergleichbare GPU-Rigs (~30k$+). Eine einzelne 24-GB-GPU reicht nur für leichtere Prompts mit höherer Latenz. Die größte / Vollgrößen-Modellvariante nutzen, die Sie laufen lassen können; stark quantisierte oder „kleine“ Checkpoints erhöhen das Prompt-Injection-Risiko (siehe Sicherheit).

Empfohlen: LM Studio + MiniMax M2.1 (Responses API, Vollgröße)

Aktuell beste lokale Kombination. MiniMax M2.1 in LM Studio laden, lokalen Server aktivieren (Standard http://127.0.0.1:1234) und Responses API nutzen, damit Reasoning vom finalen Text getrennt bleibt.

{ agents: { defaults: { model: { primary: "lmstudio/minimax-m2.1-gs32" }, models: { "anthropic/claude-opus-4-5": { alias: "Opus" }, "lmstudio/minimax-m2.1-gs32": { alias: "Minimax" } } } }, models: { mode: "merge", providers: { lmstudio: { baseUrl: "http://127.0.0.1:1234/v1", apiKey: "lmstudio", api: "openai-responses", models: [\ {\ id: "minimax-m2.1-gs32",\ name: "MiniMax M2.1 GS32",\ reasoning: false,\ input: ["text"],\ cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },\ contextWindow: 196608,\ maxTokens: 8192\ }\ ] } } } }

Setup-Checkliste

  • LM Studio installieren: https://lmstudio.ai 
  • In LM Studio die größte verfügbare MiniMax-M2.1-Build herunterladen („kleine“/stark quantisierte Varianten vermeiden), Server starten, prüfen dass http://127.0.0.1:1234/v1/models es auflistet.
  • Modell geladen lassen; Kaltstart erhöht die Startlatenz.
  • contextWindow/maxTokens anpassen, wenn Ihre LM-Studio-Build abweicht.
  • Für WhatsApp bei der Responses API bleiben, damit nur der finale Text gesendet wird.

Gehostete Modelle auch bei lokalem Betrieb konfiguriert lassen; models.mode: "merge" nutzen, damit Fallbacks verfügbar bleiben.

Hybrid-Konfiguration: gehostet primär, lokal als Fallback

{ agents: { defaults: { model: { primary: "anthropic/claude-sonnet-4-5", fallbacks: ["lmstudio/minimax-m2.1-gs32", "anthropic/claude-opus-4-5"] }, models: { "anthropic/claude-sonnet-4-5": { alias: "Sonnet" }, "lmstudio/minimax-m2.1-gs32": { alias: "MiniMax Lokal" }, "anthropic/claude-opus-4-5": { alias: "Opus" } } } }, models: { mode: "merge", providers: { lmstudio: { baseUrl: "http://127.0.0.1:1234/v1", apiKey: "lmstudio", api: "openai-responses", models: [\ {\ id: "minimax-m2.1-gs32",\ name: "MiniMax M2.1 GS32",\ reasoning: false,\ input: ["text"],\ cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },\ contextWindow: 196608,\ maxTokens: 8192\ }\ ] } } } }

Lokal zuerst mit gehostetem Sicherheitsnetz

Primäre und Fallback-Reihenfolge tauschen; denselben Providers-Block und models.mode: "merge" beibehalten, damit bei Ausfall der lokalen Box auf Sonnet oder Opus zurückgefallen werden kann.

Regionale Hosting / Daten-Routing

  • Gehostete MiniMax-/Kimi-/GLM-Varianten gibt es auch auf OpenRouter mit regionsfixen Endpunkten (z. B. US-gehostet). Dort die regionale Variante wählen, um Traffic in Ihrer gewählten Jurisdiktion zu halten, bei weiterer Nutzung von models.mode: "merge" für Anthropic/OpenAI-Fallbacks.
  • Nur lokal bleibt der stärkste Datenschutz-Pfad; gehostetes Regional-Routing ist der Mittelweg, wenn Sie Provider-Features brauchen, aber Kontrolle über den Datenfluss wollen.

Andere OpenAI-kompatible lokale Proxies

vLLM, LiteLLM, OAI-proxy oder eigene Gateways funktionieren, wenn sie einen OpenAI-ähnlichen /v1-Endpunkt bereitstellen. Den Provider-Block oben durch Ihren Endpunkt und Ihre Modell-ID ersetzen:

{ models: { mode: "merge", providers: { local: { baseUrl: "http://127.0.0.1:8000/v1", apiKey: "sk-local", api: "openai-responses", models: [\ {\ id: "my-local-model",\ name: "Lokales Modell",\ reasoning: false,\ input: ["text"],\ cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },\ contextWindow: 120000,\ maxTokens: 8192\ }\ ] } } } }

models.mode: "merge" beibehalten, damit gehostete Modelle als Fallbacks verfügbar bleiben.

Fehlersuche

  • Erreicht der Gateway den Proxy? curl http://127.0.0.1:1234/v1/models.
  • LM-Studio-Modell entladen? Neu laden; Kaltstart ist eine häufige Ursache für „Hänger“.
  • Kontext-Fehler? contextWindow verringern oder Server-Limit erhöhen.
  • Sicherheit: Lokale Modelle umgehen Provider-Filter; Agenten schmal halten und Compaction aktiv lassen, um die Prompt-Injection-Reichweite zu begrenzen.
Zuletzt aktualisiert am: