Lokale Modelle
Lokal ist machbar, aber OpenClaw setzt auf großen Kontext und starke Abwehr gegen Prompt-Injection. Kleine Karten kürzen Kontext und schwächen Sicherheit. Ziel hoch: ≥2 volle Mac Studios oder vergleichbare GPU-Rigs (~30k$+). Eine einzelne 24-GB-GPU reicht nur für leichtere Prompts mit höherer Latenz. Die größte / Vollgrößen-Modellvariante nutzen, die Sie laufen lassen können; stark quantisierte oder „kleine“ Checkpoints erhöhen das Prompt-Injection-Risiko (siehe Sicherheit).
Empfohlen: LM Studio + MiniMax M2.1 (Responses API, Vollgröße)
Aktuell beste lokale Kombination. MiniMax M2.1 in LM Studio laden, lokalen Server aktivieren (Standard http://127.0.0.1:1234) und Responses API nutzen, damit Reasoning vom finalen Text getrennt bleibt.
{
agents: {
defaults: {
model: { primary: "lmstudio/minimax-m2.1-gs32" },
models: {
"anthropic/claude-opus-4-5": { alias: "Opus" },
"lmstudio/minimax-m2.1-gs32": { alias: "Minimax" }
}
}
},
models: {
mode: "merge",
providers: {
lmstudio: {
baseUrl: "http://127.0.0.1:1234/v1",
apiKey: "lmstudio",
api: "openai-responses",
models: [\
{\
id: "minimax-m2.1-gs32",\
name: "MiniMax M2.1 GS32",\
reasoning: false,\
input: ["text"],\
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },\
contextWindow: 196608,\
maxTokens: 8192\
}\
]
}
}
}
}Setup-Checkliste
- LM Studio installieren: https://lmstudio.ai
- In LM Studio die größte verfügbare MiniMax-M2.1-Build herunterladen („kleine“/stark quantisierte Varianten vermeiden), Server starten, prüfen dass
http://127.0.0.1:1234/v1/modelses auflistet. - Modell geladen lassen; Kaltstart erhöht die Startlatenz.
contextWindow/maxTokensanpassen, wenn Ihre LM-Studio-Build abweicht.- Für WhatsApp bei der Responses API bleiben, damit nur der finale Text gesendet wird.
Gehostete Modelle auch bei lokalem Betrieb konfiguriert lassen; models.mode: "merge" nutzen, damit Fallbacks verfügbar bleiben.
Hybrid-Konfiguration: gehostet primär, lokal als Fallback
{
agents: {
defaults: {
model: {
primary: "anthropic/claude-sonnet-4-5",
fallbacks: ["lmstudio/minimax-m2.1-gs32", "anthropic/claude-opus-4-5"]
},
models: {
"anthropic/claude-sonnet-4-5": { alias: "Sonnet" },
"lmstudio/minimax-m2.1-gs32": { alias: "MiniMax Lokal" },
"anthropic/claude-opus-4-5": { alias: "Opus" }
}
}
},
models: {
mode: "merge",
providers: {
lmstudio: {
baseUrl: "http://127.0.0.1:1234/v1",
apiKey: "lmstudio",
api: "openai-responses",
models: [\
{\
id: "minimax-m2.1-gs32",\
name: "MiniMax M2.1 GS32",\
reasoning: false,\
input: ["text"],\
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },\
contextWindow: 196608,\
maxTokens: 8192\
}\
]
}
}
}
}Lokal zuerst mit gehostetem Sicherheitsnetz
Primäre und Fallback-Reihenfolge tauschen; denselben Providers-Block und models.mode: "merge" beibehalten, damit bei Ausfall der lokalen Box auf Sonnet oder Opus zurückgefallen werden kann.
Regionale Hosting / Daten-Routing
- Gehostete MiniMax-/Kimi-/GLM-Varianten gibt es auch auf OpenRouter mit regionsfixen Endpunkten (z. B. US-gehostet). Dort die regionale Variante wählen, um Traffic in Ihrer gewählten Jurisdiktion zu halten, bei weiterer Nutzung von
models.mode: "merge"für Anthropic/OpenAI-Fallbacks. - Nur lokal bleibt der stärkste Datenschutz-Pfad; gehostetes Regional-Routing ist der Mittelweg, wenn Sie Provider-Features brauchen, aber Kontrolle über den Datenfluss wollen.
Andere OpenAI-kompatible lokale Proxies
vLLM, LiteLLM, OAI-proxy oder eigene Gateways funktionieren, wenn sie einen OpenAI-ähnlichen /v1-Endpunkt bereitstellen. Den Provider-Block oben durch Ihren Endpunkt und Ihre Modell-ID ersetzen:
{
models: {
mode: "merge",
providers: {
local: {
baseUrl: "http://127.0.0.1:8000/v1",
apiKey: "sk-local",
api: "openai-responses",
models: [\
{\
id: "my-local-model",\
name: "Lokales Modell",\
reasoning: false,\
input: ["text"],\
cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },\
contextWindow: 120000,\
maxTokens: 8192\
}\
]
}
}
}
}models.mode: "merge" beibehalten, damit gehostete Modelle als Fallbacks verfügbar bleiben.
Fehlersuche
- Erreicht der Gateway den Proxy?
curl http://127.0.0.1:1234/v1/models. - LM-Studio-Modell entladen? Neu laden; Kaltstart ist eine häufige Ursache für „Hänger“.
- Kontext-Fehler?
contextWindowverringern oder Server-Limit erhöhen. - Sicherheit: Lokale Modelle umgehen Provider-Filter; Agenten schmal halten und Compaction aktiv lassen, um die Prompt-Injection-Reichweite zu begrenzen.