2026年 OpenClawレンタル Mac Mini実践:主備モデルルーティングとクォータ枯渇時の自動劣化(節流・再試行)再現手順
エージェントより先にルーティングが落ちる理由
- 単一経路のみだと瞬断が全停止。
- クォータをタイムアウト扱いすると再試行が残高を焼く。
- レーン・試行・ブレーカが無いと切分不能。
モデルレーン判断マトリクス
到達可能な予備だけを書く。
| レーン | 向いている用途 | 切り離す条件の例 |
|---|---|---|
| 主系クラウド | 品質優先・省メモリ | 四二九・枯渇・五分異常率超過 |
| 予備クラウド | 別系・安価・互換 | 主系二連敗または主系ブレーカ |
| ローカル | 要約等許容下げ | クラウド全滅または内存・ロード超過 |
バックオフ・節流・サーキットブレーカのパラメータ表
数値は契約に合わせ環境間で揃える。
| パラメータ | 初期値の目安 | メモ |
|---|---|---|
| 初期待機ミリ秒 | 二百五十 | 倍増・再試行ヘッダ秒優先 |
| 最大待機ミリ秒 | 三万 | 上限+フルジッター |
| レーン最大試行 | 三 | 超過で予備へ |
| ブレーカ失敗閾値 | 五 | 半開きは一本 |
| 冷却秒 | 百二十 | 窓リセット待ち |
| 同時実行上限 | 二 | 劣化時節流 |
再現用設定断片(コミット推奨)
秘密は金庫。雛形は版管理しリンクで載せ替え。
断片イー:レーン定義
router:
primary_model: gpt-4.1-mini
fallback_model: qwen2.5:7b-local
classify_quota_http: [429, 402]
quota_body_tokens: ["insufficient_quota", "rate_limit"]
断片ビー:再試行とブレーカ
resilience:
backoff: exponential_full_jitter
initial_ms: 250
max_ms: 30000
max_attempts: 3
breaker:
open_after: 5
half_open_probes: 1
cooldown_s: 120
六手順ハウツー(構造化データと対応)
- YAMLをコミット、鍵は平文禁止。
- 四二九・四〇二・枯渇JSONは即予備。
- 指数+ジッター、期限超過は中止。
- ブレーカは事業者単位、開なら新規は予備。
- 劣化で並列とトークンを下げ上限稿と整合。
- 月一四二九訓練でログ遷移を検証。
ログと可観測性
一行JSONでキー固定。
- レーン・HTTP・待機・試行・ブレーカ
引用メモ(運用の錨)
- 三試行で予備へ固定すれば課金が暴れにくい。
- 百二十秒は窓待ちの初期値。
- 劣化時二並列は単台併走の目安。
しきい値は四半期で見直し。