Lokale Modelle

Lokal ist machbar, aber OpenClaw setzt auf großen Kontext und starke Abwehr gegen Prompt-Injection. Kleine Karten kürzen Kontext und schwächen Sicherheit. Ziel hoch: ≥2 volle Mac Studios oder vergleichbare GPU-Rigs (~30k$+). Eine einzelne 24-GB-GPU reicht nur für leichtere Prompts mit höherer Latenz. Die größte / Vollgrößen-Modellvariante nutzen, die Sie laufen lassen können; stark quantisierte oder „kleine“ Checkpoints erhöhen das Prompt-Injection-Risiko (siehe Sicherheit).

Empfohlen: LM Studio + MiniMax M2.1 (Responses API, Vollgröße)

Aktuell beste lokale Kombination. MiniMax M2.1 in LM Studio laden, lokalen Server aktivieren (Standard http://127.0.0.1:1234) und Responses API nutzen, damit Reasoning vom finalen Text getrennt bleibt.


{
  agents: {
    defaults: {
      model: { primary: "lmstudio/minimax-m2.1-gs32" },
      models: {
        "anthropic/claude-opus-4-5": { alias: "Opus" },
        "lmstudio/minimax-m2.1-gs32": { alias: "Minimax" }
      }
    }
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [\
          {\
            id: "minimax-m2.1-gs32",\
            name: "MiniMax M2.1 GS32",\
            reasoning: false,\
            input: ["text"],\
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },\
            contextWindow: 196608,\
            maxTokens: 8192\
          }\
        ]
      }
    }
  }
}

Setup-Checkliste

LM Studio installieren: https://lmstudio.ai
In LM Studio die größte verfügbare MiniMax-M2.1-Build herunterladen („kleine“/stark quantisierte Varianten vermeiden), Server starten, prüfen dass http://127.0.0.1:1234/v1/models es auflistet.
Modell geladen lassen; Kaltstart erhöht die Startlatenz.
contextWindow/maxTokens anpassen, wenn Ihre LM-Studio-Build abweicht.
Für WhatsApp bei der Responses API bleiben, damit nur der finale Text gesendet wird.

Gehostete Modelle auch bei lokalem Betrieb konfiguriert lassen; models.mode: "merge" nutzen, damit Fallbacks verfügbar bleiben.

Hybrid-Konfiguration: gehostet primär, lokal als Fallback


{
  agents: {
    defaults: {
      model: {
        primary: "anthropic/claude-sonnet-4-5",
        fallbacks: ["lmstudio/minimax-m2.1-gs32", "anthropic/claude-opus-4-5"]
      },
      models: {
        "anthropic/claude-sonnet-4-5": { alias: "Sonnet" },
        "lmstudio/minimax-m2.1-gs32": { alias: "MiniMax Lokal" },
        "anthropic/claude-opus-4-5": { alias: "Opus" }
      }
    }
  },
  models: {
    mode: "merge",
    providers: {
      lmstudio: {
        baseUrl: "http://127.0.0.1:1234/v1",
        apiKey: "lmstudio",
        api: "openai-responses",
        models: [\
          {\
            id: "minimax-m2.1-gs32",\
            name: "MiniMax M2.1 GS32",\
            reasoning: false,\
            input: ["text"],\
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },\
            contextWindow: 196608,\
            maxTokens: 8192\
          }\
        ]
      }
    }
  }
}

Lokal zuerst mit gehostetem Sicherheitsnetz

Primäre und Fallback-Reihenfolge tauschen; denselben Providers-Block und models.mode: "merge" beibehalten, damit bei Ausfall der lokalen Box auf Sonnet oder Opus zurückgefallen werden kann.

Regionale Hosting / Daten-Routing

Gehostete MiniMax-/Kimi-/GLM-Varianten gibt es auch auf OpenRouter mit regionsfixen Endpunkten (z. B. US-gehostet). Dort die regionale Variante wählen, um Traffic in Ihrer gewählten Jurisdiktion zu halten, bei weiterer Nutzung von models.mode: "merge" für Anthropic/OpenAI-Fallbacks.
Nur lokal bleibt der stärkste Datenschutz-Pfad; gehostetes Regional-Routing ist der Mittelweg, wenn Sie Provider-Features brauchen, aber Kontrolle über den Datenfluss wollen.

Andere OpenAI-kompatible lokale Proxies

vLLM, LiteLLM, OAI-proxy oder eigene Gateways funktionieren, wenn sie einen OpenAI-ähnlichen /v1-Endpunkt bereitstellen. Den Provider-Block oben durch Ihren Endpunkt und Ihre Modell-ID ersetzen:


{
  models: {
    mode: "merge",
    providers: {
      local: {
        baseUrl: "http://127.0.0.1:8000/v1",
        apiKey: "sk-local",
        api: "openai-responses",
        models: [\
          {\
            id: "my-local-model",\
            name: "Lokales Modell",\
            reasoning: false,\
            input: ["text"],\
            cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 },\
            contextWindow: 120000,\
            maxTokens: 8192\
          }\
        ]
      }
    }
  }
}

models.mode: "merge" beibehalten, damit gehostete Modelle als Fallbacks verfügbar bleiben.

Fehlersuche

Erreicht der Gateway den Proxy? curl http://127.0.0.1:1234/v1/models.
LM-Studio-Modell entladen? Neu laden; Kaltstart ist eine häufige Ursache für „Hänger“.
Kontext-Fehler? contextWindow verringern oder Server-Limit erhöhen.
Sicherheit: Lokale Modelle umgehen Provider-Filter; Agenten schmal halten und Compaction aktiv lassen, um die Prompt-Injection-Reichweite zu begrenzen.