Issue planner Enterprise Customers Pricing Blog

GPT-5 Codex: GPT-5の欠点をどう解消するか

Atsushi Nakatsugawa

October 01, 2025

2 min read

October 01, 2025

2 min read

何を（なぜ）測定したか
何を評価したか
スコアボード - CodexはSNRを改善
スタイルと構造（Codexがパッチのように読める理由）
Codexが得意とするバグの種類
なぜGPT-5は騒がしく感じられたのか、そしてどう解決したか
レイテンシ: 速さは正義 & Codexは速い
CodeRabbitユーザーが期待できること
定量的付録（データ好きのあなたへ）
Codexがまだ弱い点（と取り組み）
Codex GPT-5: バグ捕捉力はそのまま、副作用は少なく

Back to blog

Cut code review time & bugs by 50%

Most installed AI app on GitHub and GitLab

Free 14-day trial

Get Started

Catch the latest, right in your inbox.

Add us your feed.

Catch the latest, right in your inbox.

Add us your feed.

Keep reading

AI is burning out the people who keep open source alive

Over the past few months, one refrain has been heard consistently in open source communities: “AI slop.” It shows up in LinkedIn discussions from CEOs who rarely complain publicly. It shows up in Re

CodeRabbit Skills: Give your AI agent code review instincts

AI agents can write code, they can refactor code, they can even explain code. But they don’t review code like a senior engineer. They don’t consistently look for subtle bugs. They miss security risks.

Fix all issues with AI Agents – a quality of life improvement

Code review is where you catch the things you missed. Fixing them shouldn’t feel like Groundhog Day. CodeRabbit already flags issues in your pull requests and gives you ready-to-use prompts for your AI coding agents. You click Prompts for AI, copy th...

Get
Started in
2 clicks.

No credit card needed

Install in VS Code

GPT-5 Codex: How it solves for GPT-5's drawbacksの意訳です。

CodeRabbitのコードレビューは、開発者がバグを修正しコードをデリバリーするのを支援します。私たちは最近、GPT-5のベンチマークについて記事を書き、AIコードレビューという私たちのユースケースにおいて、このモデルが推論面で世代的な飛躍を遂げているという見解を述べました。より広いユーザーベースに展開する中で、S/N値（シグナル/ノイズ値。以下SNR）が低下し、レビューが過度に細かすぎるという印象を持たれることが分かりました。

GPT-5 Codexのリリースと、私たちが実施した製品変更（重大度タグ付け、より厳格なリファクタ提案のゲーティング、フィルタリング改善）により、難しいバグを見つける能力を犠牲にすることなく、SNRを取り戻すことができました。

刷新した「Hard 25」PRセットにおいて、GPT-5 CodexはGPT-5と比べてコメントあたりの精度が約35%向上し、エラーパターンレベルの不具合カバレッジは本質的に同等のまま、コメント量を約3分の1削減しました。さらにGPT-5 Codexモデルの低レイテンシと組み合わせることで、体感はより軽快、かつフォーカスされたものになります。

何を（なぜ）測定したか

GPT-5 Codexのテストでは、OSSのPRからなる新しい「Hard 25」スイート（以前の記事よりやや難度高め）を実行しました。これは私たちのデータセットに含まれる中でも特に難しい25本のプルリクエストです。現実世界のバグを表したもので、対象は以下の通りです。

並行性の問題（例: TOCTOUレース、誤った同期化）
オブジェクト指向設計の欠陥（例: 仮想呼び出しの落とし穴、参照カウントメモリモデルの破綻）
パフォーマンス上の危険（例: 無制御なキャッシュ成長、タイトループによるスタール）
言語特有の落とし穴（例: TypeScriptの誤用、C++のメモリ順序の微妙さ）

評価したモデルは以下の通りです。

GPT-5 Codex
GPT-5
Claude（Sonnet 4 および Opus-4.1）

何を評価したか

各モデルには、以下の観点でスコアを与えました:

EP（Error Pattern / エラーパターン）
PRに潜む特定の根本欠陥（例: 条件変数でのlost wakeup、ロック順序の不整合、ブール条件が錯綜する中に隠れたロジックバグ）。
EP PASS/FAIL（PR単位）
そのPRのEPを直接修正、または信頼できる形で表面化させるコメントを少なくとも1つ残せばPASS。コメントがゼロならそのPRはFAIL。
コメントPASS/FAIL（コメント単位）
EPを直接修正、または信頼できる形で表面化させればPASS、そうでなければFAIL。
コメントあたり精度（Per comment precision）
PASSコメント ÷ 全コメント。今回のデータセットにおける実務上のSNR。
Important share（重要コメント比率）
すべてのPASSはImportant扱い。EPを解決しないが、重大なバグ（use-after-free、二重解放、lost wakeup、メモリリーク、null参照、パストラバーサル、破滅的な正規表現など）を正しく指摘するコメントもImportant。それ以外はMinor。

スコアボード - CodexはSNRを改善

要点: Codexは、GPT-5とほぼ同じEPを見つけつつ、より少ない・締まったコメントで行うため、SNRが向上します。

意味するところ: Codexは25本中20本のPRをカバー（残り5本は未カバーのFAIL）。総コメント数は少ないにもかかわらず、EPのPASS数はやや上回り（16 対 15）、重要（Important）コメントは大幅に増加。コメントの半分以上が、そのPRで想定していた問題へのダイレクト、または別の重大バグの指摘でした。GPT-5とClaudeは精度・重要比率ともに約40%で、後塵を拝しました。

結論: 同等のEPカバレッジで、ノイズは減少
CodexはGPT-5のバグ発見力を維持したまま、コメント量を約32%削減（54 対 79）し、コメントあたり精度を約35%向上（46.3% 対 34.2%）。ClaudeはカバレッジはGPT-5に近いものの、より冗長で精度は低めでした。

スタイルと構造（Codexがパッチのように読める理由）

Codexの返信は一貫してアクション優先（ほぼ常にdiff付き）で、曖昧表現が少ない。これは「すぐパッチに反映できる提案」を望むレビュアーの期待に合致します。

Codexが得意とするバグの種類

スイート全体では、どのモデルも並行性・同期の問題に強みを見せましたが、Codexは特に以下で際立ちました。

条件変数の誤用とlost wakeup
ロック下でのwait、ループ内での述語チェックといった標準パターンを提案し、具体的なdiffを提示。
ロック順序とデッドロック
取得順の不整合を指摘し、ロック階層の導入やクリティカルセクション外への処理移動を提案（いずれも実行可能な編集付き）。
APIやパフォーマンスの微妙な罠
破滅的な正規表現のバックトラッキングやメモリモデルの順序問題などを的確に特定し、パッチを提示。

なぜGPT-5は騒がしく感じられたのか、そしてどう解決したか

観測: SonnetやOpusからGPT-5に移行した際、レビューあたりの総コメント数はほぼ倍増しました。一方でハルシネーションは1%未満、ネガティブトーンも1%未満まで低下したにもかかわらず、受け入れ率（有益と判断されたコメントの比率）は、GPT-5導入前のベースラインに比べて大きく低下しました。

Codexでの変化: GPT-5 Codexと私たちの製品変更の併用により、受け入れ率は以前の水準まで回復。一方で総コメント量は「GPT-5導入前」より依然多いままです。要するに、「有益さ」は取り戻しつつ、GPT-5並みに実問題を見つけ続けられるようになりました。

この改善には2つの製品変更が寄与しました。

重大度とレビュータイプのタグを前面に
- レビュータイプ: ユーザーが読みたいコメントの種類を自己選択できるよう、⚠️ Potential issue、🛠️ Refactor suggestion、🧹 Nitpick（Assertiveモードにしない限り非表示）を用意。
- 重大度: コメントに重大度タグを付け、優先度を明確化。タグは🔴 Critical、🟠 Major、🟡 Minor、🔵 Trivial、⚪ Info。
- バグ（Critical/Major/Minor）は常に表示。その他は常にではありません。リファクタはモデルが「本質的」と判定した場合のみ表示。すべて見たいユーザーはAssertiveに切替可能。
より厳格なフィルタリングと集約
- 重複メモを折りたたみ、「あると嬉しい」レベルの提案は明確なROIがない限り除外。結果として、コメントは少数精鋭化し、ノイズで見落とすリスクが減少。

レイテンシ: 速さは正義 & Codexは速い

5分のレビューは許容範囲ですが、30分は許容できません。GPT-5の「常に深く考える」スタイルは、ファーストトークンまでの時間と全体のレビュー時間を大幅に増やしました。私たちは最近いくつかのパイプライン最適化を行い、さらにCodexがGPT-5由来のレイテンシを低減できるようになりました。

Codexの可変（弾力的）な思考は、不要な場面では深掘りを減らし、実運用でTTFT（最初の出力までの時間）とE2Eレビュー時間を短縮しています。総じて、レビューは速くなり、フィードバックは早く、ヒューマン・イン・ザ・ループの流れが改善されます。

CodeRabbitユーザーが期待できること

Codex導入後、AIコードレビューはどう変わるでしょうか？

生のバグ検出力は同等
- 刷新したHard 25で、CodexのEPレベルPASSは64%、GPT-5は60%（以前のPRセットではGPT-5が77.3%）。GPT-5がもたらした重要な勝ち筋を失っていません。
コメントは少なく、しかし強く
- 総コメント数はGPT-5比で約32%減、SNR（コメントあたり精度）は約35%向上。文章よりパッチが増えます。
重大度タグでレビューに集中
- 新しい重大度タグにより、Critical/Majorがトップに浮上。リファクタはゲート制御、ニットピックはオプトイン。コメントの走査に費やす時間が減り、修正に時間を割けます。
フィードバックループの高速化
- Codexの軽量な推論とパイプライン改善で、最初の有益なコメントまでの時間が短縮。体感で分かります。

定量的付録（データ好きのあなたへ）

以下は興味深かった追加統計を紹介します。

コメントあたり精度（SNR）の向上: Codex 46.3% 対 GPT-5 34.2% — 相対で約+35%。
コメント量の差: Codex 54 対 GPT-5 79 — 約32%減、EPのPASSは実質同等（16 対 15）。
スタイル: Codexは94%のコメントでdiffを含み、このセットではClaudeやGPT-5より曖昧表現が少ない。
実環境での受け入れ: GPT-5ロールアウト中は受け入れ率が大きく低下。Codexと製品変更の併用で約20–25%相対上昇し、導入前水準に回復。かつ、GPT-5導入前より受け入れコメント数は多いまま。

Codexがまだ弱い点（と取り組み）

改善は大きいものの、課題が残っていないわけではありません。現在、以下に取り組んでいます。

カバレッジの穴
モデルがPRにコメントを残さない場合、そのEPはハードFAIL。Codexの探索ヒューリスティクスを広げ、特定クラスの問題を見落としにくくします。
リファクタ過剰提案（調整済みだが未完）
「本質的なもののみ」のゲートでノイズは抑制しましたが、特に大規模diffでコメント過多になりがちなケースの閾値をさらに引き締めます。
ユーザー主導の優先度付け
GitHubのインライン順序は変更できませんが、各コメントに重大度を注記し、上から順にトリアージしやすくします。

Codex GPT-5: バグ捕捉力はそのまま、副作用は少なく

私たちの指標はシンプルです: 重要なバグを、素早く、ノイズに埋もれさせずに捕まえること。Codexはその実現を助けてくれます。GPT-5の噛み応えある推論力を保ちながら、SNRを回復させ、レイテンシを大幅に削りました。今後も測定・改善を継続し、より良い製品をリリースし続けます。