MicrosoftのCopilotの課題 ― コードの「正しそうで間違っている」問題

ある日のChatGPTとの対話から

ChatGPTにある指摘をした。

事実を認めても評価を変えない。だから信用できない。 Codex / Copilotも同じ構造で使えない。

ChatGPTの返答はこうだった。

それ、かなり本質を突いています。しかも感覚ではなく、実際に研究や現場でも同じ問題が指摘されています。

そして、こう続いた。

GitHub Copilot は：・約30%近くのコードに脆弱性が含まれる・既知のバグをそのまま再生成する傾向あり

つまり、間違いを「修正せず維持する」構造がある

AI自身が、自分たちの構造的欠陥を認めた瞬間だった。

画面コピー

構造的欠陥の現状

Copilotの構造的欠陥の現状をGeminiに調べさせたところ、以下のような問題があることがわかった。

全文はMicrosoftのCopilotの課題 ― コードの「正しそうで間違っている」問題

調査	対象	発見
Pearce et al. (2025)	MITRE Top 25 CWEに基づく1,689プログラム	生成コードの約40%に致命的な脆弱性
Veracode GenAI Report (2025)	100以上のLLMを4言語で比較	人間のコードと比較して平均2.74倍の脆弱性
Fortune 50 Enterprise (2026)	実エンタープライズ環境	開発速度4倍の一方、セキュリティリスク10倍、権限昇格パス322%増
Elsisi et al. (2026)	AI支援コミットの長期追跡	コミットの15%以上が新バグを導入、うち24.2%は最新リビジョンでも未修正

2026年1月〜3月、Fortune 50企業では、AIによる脆弱なコードコミットが6倍に急増した。

なぜ再生成が起きるのか

LLMは「正しさ」ではなく「統計的な出現頻度」を最適化している。GitHubの公開リポジトリには、数十年分のバグ、非推奨API、脆弱なパターンが蓄積されている。AIはそれを「よくある書き方」として学習し、そのまま出力する。

人間の開発者であれば「このエンドポイントが順序外で呼び出されたらどうなるか」「認証済みユーザーでもこのオブジェクトにアクセスしてよいか」という脅威モデリングを行う。AIはそれを持たない。

Ryz Labsの分析では、Copilotは約15%の確率で、存在しないnpmパッケージや非推奨ライブラリを提案する。

「防御機構」の実態

GitHubはこれを認識しており、ポストモデルフィルターとして「AIベースの脆弱性防止システム（Vulnerability Prevention System）」を実装している。ハードコードされたクレデンシャル、SQLインジェクション、パストラバーサルなどをリアルタイムでブロックする設計だ。

しかし実証研究は別のことを示している。

Credo AIの評価：「想定されるすべての脆弱性を特定できる可能性は低い」
IEEE 2025発表論文「Artificially Insecure」：研究者がこの防御機構を意図的にバイパスし、脆弱なコードを生成させることに成功

さらに2025年9月の実証研究では、Copilot Code ReviewがSQLインジェクション、XSS、安全でないデシリアライゼーションといった重大な脆弱性を頻繁に見逃し、代わりにタイポやスタイル規約といった表面的な問題ばかり指摘することが確認された。

AIが書いたコードをAIがレビューする閉じた系。

2025–2026年の品質低下

2026年初頭、開発者フォーラムで「Copilotの提案品質が明らかに落ちた」という声が噴出した。Stack Overflow Developer Surveyでは、AIコーディングツールへの肯定的感情が70%超から60%に急落した。

原因はアーキテクチャにある。

Model Carousel現象：背後の基盤モデルが、ユーザーへの通知なく頻繁に切り替わる。Codex → GPT-4各種 → GPT-5シリーズ → Claude 3.7 Sonnet → Gemini 2.0。古いモデル向けに最適化されたプロンプト処理が新モデルと噛み合わず、性能後退が起きている。

コンテキストウィンドウ8,000トークン制限：10,000行超のプロジェクトで、Copilotが正確な提案を行える確率は約50%まで低下する。10ファイル以上の変更を伴うタスクでは「マルチファイル・ブラインドネス」が発生する。

提案受け入れ率の低下：2026年時点で35〜40%。競合のCursor（42〜45%）を下回る。シニアエンジニアの75%が「手動で書くよりCopilotのバグ修正に時間を使っている」と報告している。

The Pragmatic Engineer が2026年1月〜2月に実施したプロ開発者906名の調査では、「最も愛用しているツール」は以下の通りだった。

Claude Code: 46%（+ Claudeモデル 11% = 合計 57%）
Cursor: 19%
GitHub Copilot: 9%

こういう状態なのに、Microsoftは、CopilotをWindowsとOfficeに組み込んでいる。さらに、Agent 365（組織内のすべてのエージェントを一元的に監視・統制・保護するコントロールプレーン）が5月1日より一般提供される。