自律エージェントは危険操作の6件に1件を見逃し、検収は重くなる

自律エージェントは危険操作の6件に1件を見逃し、検収は重くなる 2026.06.16 AIガバナンス

2026年6月15日、AIコーディングツールの Claude Code が 2.1.178 に更新されました。目を引いたのは、エージェントに「やってよい操作」と「やってはいけない操作」を指定する権限ルールの強化です。権限ルールは設定ファイル（settings.json の permissions）に並べる宣言で、今回からこれまでより細かい条件で線を引けるようになりました。たとえば拒否ルールに Agent(model:opus) と一行書けば、本体が手伝い役として呼び出す小さなエージェント（サブエージェント）に、最上位で利用料も高いモデル Opus を使わせない、といった指定ができます。あわせて、そのサブエージェントを動かす前に別のチェック役が中身を点検し、危なければ止める仕組みも入りました。自律的に動くエージェントを売る会社が、同じ更新で「勝手に動かさない」ための部品を足しているわけです。ここで一つ問いが立ちます。エージェントの自律度を上げるほど、運用する人の手間は減るのでしょうか。

自律の範囲は広がり、ガードも同時に増えている

いま起きているのは、エージェントが担う範囲の拡大です。コードを書くだけだったものが、計画・実装・テスト・デプロイ・監視までを一続きで回す方向に動いています。複数のベンダーが、開発ライフサイクル全体をエージェントに任せる製品を打ち出し、各段階を互いに強化させると説明しています。

同じ時期に、別の動きも見えます。エージェントを止めるための機能が増えていることです。権限ルールの細分化、サブエージェントの起動前チェック、ツール単位の拒否設定。自律度を上げるほど、それを囲う仕組みが必要になっている、という事実がここに出ています。広げる側と囲う側が別の会社ではなく、同じ製品の中で同居しています。

公開データが示す「自律のコスト」

Anthropic はエンジニアリング記事で、権限確認を省く auto mode の中身を公開しています。数字が具体的です。

判定は2段階です。第1段は高速フィルターで、誤って止める率（偽陽性）が約8.5%。第1段が引っかけたものだけ第2段の推論にかけ、この率を0.4%まで下げます。
サブエージェントには、仕事を渡すときと結果が戻るときの両方で分類器がかかります。渡すときは元の指示と矛盾していないか、戻るときは外部入力に乗っ取られていないかを見ます。
3回続けてブロックするか、累計20回ブロックすると、エージェントは停止します。
実際に危険だった操作52件で測ると、見逃し率（偽陰性）は17%でした。

この17%という数字の読み方が大事です。権限確認を全部省いた状態よりは安全になる、しかし6件に1件は危ない操作をすり抜ける、という意味です。Anthropic 自身も、ユーザーが出した承認が「その操作の範囲を本当にカバーしているか」の見極めが残る課題だと書いています。自律は人の確認をゼロにはしません。確認の頻度を減らす代わりに、見逃したときの一発を重くします。

書く作業は減り、確かめる作業が増える

現場で何が変わるか。エージェントの自律度を上げると、人がコードを打つ時間は減ります。代わりに、出てきたものが意図どおりかを確かめる時間が増えます。作業の総量が消えるのではなく、生成から検収へ移動します。

移動先で起きる失敗が、最近 instruction rot という言葉で語られています。エージェントが自分でメモリや設定ファイルを書き換え、提案を自動で取り込んでいくと、設定が現場の意図からずれていきます。低い品質の提案がそのまま積み上がったり、エージェントが過去の自分の指示に合わせ込みすぎて、人が方向を変えにくくなります。自律的に賢くなる仕組みが、逆に操縦を効かなくする失敗です。誰が悪意を持ったわけでもなく、自動更新を素通しした結果として起きます。

「うちは小規模だから関係ない」という反論があります。むしろ逆です。規模が小さいほど、エージェントの設定を見張る専任がいません。自動更新を止める人がいないまま設定がずれ、ある日デプロイが意図しない挙動をして気づく、という順番になりがちです。自律度を上げる前に止め方と確かめ方を決めておくと、人数が少ない現場ほど、後から事故を防ぐ手間が小さく済みます。

まとめ：自律は監視の設計とセットで入れる

結論です。コーディングエージェントの自律度を上げても、人の作業は減りません。書く作業から確かめる作業へ移るだけで、しかも見逃したときの損害は大きくなります。自律性は、監視と検収のコストとのトレードオフです。

限界もあります。短時間で範囲の狭いタスクなら、自律で回して問題は出にくい。重くなるのは、長く動かす場合と、計画からデプロイまで任せる広い範囲の場合です。全部を一律に縛る必要はありません。

次の一手は3つに絞れます。第1に、エージェントに渡す権限をツールやパラメータ単位で切り、要らない操作を起動前に止める。第2に、メモリや設定ファイルの自動更新には人のレビューを1枚挟み、素通しさせない。第3に、本番に入れる前の検収基準を先に文章で決め、何を満たせば通すかをエージェントが動く前に固定する。自律度を上げる判断と、この3つを置く判断は、必ずセットで行います。

参考・一次ソース

■お問い合わせ

本番に入れる前の検収基準づくりや、エージェントの権限スコープ・自動更新のレビュー導線をどう設計するかで手が止まったときは、アハクラフトにご相談ください。

お問い合わせ

次の記事へ＞

COLUMNS