- 止まると困るAI工程は、最先端モデルと別系統で持っておく
2026.06.21 
-
業務に組み込んだAIは、自分の落ち度と関係なく、ある日止まることがあります。使っていたモデルが急に提供を止められたとき、問われるのは性能の優劣ではなく、何分で別の手段に移れるかです。今日は、止まっては困る工程を手元で動かしておく備え方を、実際に動く構成まで落として整理します。問いはひとつです。そのとき、ローカルで動くAIをBCP(事業継続計画)として用意できるか、そしてどこまで使えるのか。
供給の途絶は性能では防げない
AIを業務に入れると、止まる理由はモデルの性能以外のところに増えます。輸出規制で提供そのものが消えることもあれば、ベンダー側の障害、料金改定、利用規約の変更、アカウント停止もあります。どれも現場のプロンプトの質とは無関係に起こります。
ここで工程を二つに分けて考えます。ひとつは最先端モデルの性能が要る工程です。難しい設計判断や、長い文脈をまたぐ複雑な作業がこれにあたります。もうひとつは、性能の高さより止まらないことが大事な工程です。社内文書の要約、定型コードの修正、ログの整形、見積書のドラフトのような、毎日回っていて止まると業務が手作業に逆戻りするものです。
この二つを同じベンダーの同じモデルに乗せていると、片方の都合でもう片方まで巻き込まれて止まります。だから後者だけを切り出して、手元で動く二系統目を持たせる、というのが今回の打ち手です。
ローカルでコーディング支援を動かす構成
具体的に何が動くのかを、公式ドキュメントで確かめられる範囲で示します。ここではコーディング支援のClaude Codeを例にします。
Ollamaは、ローカルに置いたオープンモデルをAnthropic互換のAPIとして提供します。Claude Codeは接続先を環境変数で切り替えられるので、向き先をローカルのOllamaにするだけで、同じ操作感のままローカルモデルで動きます。Ollama公式ドキュメントが示す設定は三行です。
ANTHROPIC_AUTH_TOKEN=ollama/ANTHROPIC_API_KEY=""/ANTHROPIC_BASE_URL=http://localhost:11434を渡し、ローカルの11434番ポートに向けます。この向き先の切り替え自体は裏技ではありません。Anthropic公式のClaude Codeドキュメントにも、接続先を自社のLLMゲートウェイへ向ける構成(
ANTHROPIC_BASE_URL)が正規の設定として載っています。社内のプロキシに向けるのも、ローカルのOllamaに向けるのも、同じ仕組みの上にあります。オフラインで動くかという点も確かめておきます。モデルは最初に一度だけ
ollama pullでダウンロードが要りますが、取得後の推論はネット接続なしで完結します。ネットワークが落ちても、ベンダーが止まっても、手元のモデルは動き続けます。これがBCPとして成り立つ理由です。どこまで任せられるか、どこからは無理か
「ローカルで動くなら、最初から全部それでいいのでは」という反論があり得ます。ここははっきり線を引きます。ローカルモデルは二系統目であって、最先端モデルの置き換えではありません。
第1に、性能の差が残る工程があります。オープンモデルは多くの作業で実用域に入ってきましたが、長い手順をまたぐ作業や、ツールを正確に呼び続ける場面では、最先端モデルとの差がまだ出ます。止まると困る定型工程を任せるには十分でも、難しい判断まで丸ごと預ける段階ではありません。
第2に、ハードウェアと運用の負担があります。Ollama公式ドキュメントは、Claude Codeを動かすには大きいコンテキスト窓(64kトークン以上を推奨)が要ると明記しています。実用的な速度を出すにはGPUやメモリの確保が必要で、モデルの更新やコンテキスト長の調整も自分で面倒を見ることになります。クラウドなら見えなかった運用が手元に移ります。
第3に、ここで挙げた一次情報は技術ドキュメントの動作仕様です。自社のどの工程をローカルに置けるかは、実際に同じタスクを流して品質を測る検証が別に要ります。動くことと、自社の基準で使えることは別の話です。
まとめと次の一手
止まっては困る定型工程は、ローカルモデルで二系統目を用意しておけば、ベンダーが止まっても手作業に戻らずに済みます。ただしこれは最先端モデルの代わりではなく、性能が要る工程は本系統に残したまま、止められない工程だけを手元に逃がす設計です。
この打ち手には限界もあります。ローカルモデルには性能差と運用負担があり、全工程の置き換えにはなりません。技術ドキュメントが動作を保証しても、自社業務での実用性は別途検証が要ります。
明日から確認できることは次の3つです。
- 毎日回っていて、止まると手作業に逆戻りする工程はどれか。性能が要る工程と分けて棚卸しできているか。
- その止められない工程を、ローカルモデルで同じ品質を出せるか。プロンプトと評価基準を、特定ベンダーに依存しない形で手元に持っているか。
- ローカルで動かすためのハード(GPU・メモリ・コンテキスト長)の見積もりと、誰がモデル更新を見るかの担当を決めてあるか。
最先端の性能が要る工程と、止まっては困るので手元で動かしておきたい工程。この二つを分けて設計しておくことが、供給の途絶に振り回されないための備えになります。
参考・一次ソース
- Ollama公式ドキュメント「Claude Code」(Anthropic互換エンドポイント・環境変数・64kコンテキスト要件・推奨モデル)
- Anthropic公式 Claude Codeドキュメント「LLM gateway configuration」(ANTHROPIC_BASE_URL による接続先切り替え)
■お問い合わせ
止まっては困る工程の切り出しや、ローカルモデルで同じ品質を出せるかの検証、どんな構成と運用体制が要るかの設計まで手が回らないときは、アハクラフトにご相談ください。