CodeRabbit logoCodeRabbit logo
プランエンタープライズカスタマー料金表ブログ
リソース
  • ドキュメント
  • トラストセンター
  • お問い合わせ
  • FAQ
  • ホワイトペーパー
ログイン無料試用を開始
CodeRabbit logoCodeRabbit logo

プロダクト

プルリクエストレビューIDE レビューCLI レビューオープンソース

ナビゲーション

私たちについて特徴FAQシステムステータス採用データ保護附属書スタートアッププログラム脆弱性開示

リソース

ブログドキュメント変更履歴利用事例トラストセンターブランドガイドライン

問い合わせ

サポートセールス料金表パートナーシップ

By signing up you agree to our Terms of Use and Privacy Policy

discord iconx iconlinkedin iconrss icon
footer-logo shape
利用規約プライバシーポリシー

CodeRabbit Inc © 2026

CodeRabbit logoCodeRabbit logo

プロダクト

プルリクエストレビューIDE レビューCLI レビューオープンソース

ナビゲーション

私たちについて特徴FAQシステムステータス採用データ保護附属書スタートアッププログラム脆弱性開示

リソース

ブログドキュメント変更履歴利用事例トラストセンターブランドガイドライン

問い合わせ

サポートセールス料金表パートナーシップ

By signing up you agree to our Terms of Use and Privacy Policy

discord iconx iconlinkedin iconrss icon

コード関連タスクにおけるGemini 3.1 Pro:より集中的で、高いS/N比

by
Atsushi Nakatsugawa

Atsushi Nakatsugawa

March 13, 2026

|

1 min read

March 13, 2026

1 min read

  • 方法論:Gemini 3.1 Proのベンチマーク方法
  • パフォーマンス結果
  • 行動レイヤー
  • Geminiが優れている点
  • Geminiが不足している点
  • 結論と制限事項
Back to blog
Cover image

共有

https://victorious-bubble-f69a016683.media.strapiapp.com/X_721afca608.pnghttps://victorious-bubble-f69a016683.media.strapiapp.com/Linked_In_a3d8c65f20.pnghttps://victorious-bubble-f69a016683.media.strapiapp.com/Reddit_feecae8a6d.png

他の記事を読む

sabiql開発者riii111さんに聞く、CodeRabbitが支える個人OSSのコードレビュー

sabiql開発者riii111さんに聞く、CodeRabbitが支える個人OSSのコードレビュー

ターミナル中心の開発体験を追求する PostgreSQL 向けTUI「sabiql」 sabiql は、PostgreSQL をターミナル上で閲覧・編集・分析できる Rust 製の TUI ツールです。既存の psql を活用する設計により、追加ドライバや複雑なセットアップなしですぐに使い始められるのが特徴です。SQL の実行、ER 図生成、テーブルやカラムの確認、パフォーマンス分析までを、ターミ

Custom Finishing Touch レシピがあるのに、まだ手動でやりますか?

Custom Finishing Touch レシピがあるのに、まだ手動でやりますか?

Remove manual work with Custom Finishing Touch recipesの意訳です。 プルリクエストをちょっと確認してみてください。 多くの開発者と同じなら、「ほぼ完成」しているPRが少なくとも1つはあるはずです。機能は動いている、ロジックも問題ない、ローカルではテストも通っている。完成しているかどうか聞かれたら、「まあ…ほぼね」と答えるでしょう。それでもまだオ

リモート開発を支えるAIレビュー。kubellストレージのCodeRabbit導入

リモート開発を支えるAIレビュー。kubellストレージのCodeRabbit導入

中小企業のDXを支える「kubellストレージ」 kubellストレージは、kubellグループの一員として、法人向けオンラインストレージサービスを開発・提供しています 。主力サービスである「セキュアSAMBA」は、ファイル共有や管理を安全かつ効率的に行えるオンラインストレージであり、ITの専門知識がなくても直感的に利用できる操作性を特徴としています 。中小企業を中心に導入が進んでおり、ファイル管

AIプラットフォームエンジニアリングチームが語る、CodeRabbitによるレビュー負荷軽減と品質向上の実感

AIプラットフォームエンジニアリングチームが語る、CodeRabbitによるレビュー負荷軽減と品質向上の実感

スモールビジネスを世界の主役に。フリー株式会社のミッションとビジョン フリー株式会社(以下freee)は「スモールビジネスを、 世界の主役に。」をミッションに掲げ、クラウド会計ソフトをはじめとして人事労務、電子契約など約40種類のプロダクト・サービスを提供しています。また、「だれもが自由に経営できる統合型経営プラットフォーム」というビジョンのもと、従来バラバラだったフロントオフィスからバックオフィ

Gemini 3.1 Pro for code-related tasksの意訳です。

実際のところ、開発者はプルリクエストに残されたコメントを通じてAIコードレビューを体験します。つまり、実際の問題をどのくらいの頻度で見つけるか、どのくらいノイズを発生させるか、そしてそのフィードバックがどの程度実行可能かです。

これらの質問に答えるため、GoogleのGemini 3.1 Proと、CodeRabbitのエージェント的PRレビューワークフロー向けに調整されたOpenAIとAnthropicモデルの独自ブレンドである内部レビューベースラインとの比較ベンチマークを実施しました。

意図的にバグを注入した実際のプルリクエストを使用して、検出率だけでなく、レビューコメント自体の構造と品質を測定しました。結果は明確なトレードオフを明らかにしています。Geminiはより少なく集中的なコメントを残し、高いS/N比を持ちますが、全体として発見するバグの数は少なくなります。

方法論:Gemini 3.1 Proのベンチマーク方法

私たちのベンチマークでは、特定の既知のエラーパターンが対処されなければならない実際のGitHubプルリクエストで構成された内部データセットを使用しています。各エラーパターン(EP)には、問題のグラウンドトゥルース記述があります。

モデルがEPに「合格」するのは、そのレビューコメントの少なくとも1つが、注入されたバグの根本原因に直接対処するか、具体的な修正を提案するか、実行可能な方向性でリスクを明示的に特定する場合です。

25の難しいPRのスイートを使用し、それぞれに既知のエラーパターン(EP)を仕込みました。スコアリングは以下に焦点を当てています。

  • 実行可能なコメントのみ:投稿されたコメント(追加の提案や差分外のメモは除く)

  • EP PASS(コメントごと):コメントがEPを直接修正または指摘する

  • 重要なコメント:EP PASSまたは別の重大/クリティカルな実際のバグのいずれか

  • 精度:EP PASS ÷ 総コメント数

  • S/N比:重要 ÷(総数 - 重要)

比較対象:

  • Gemini 3.1 Pro

  • CodeRabbit Production(CodeRabbitのエージェント的PRレビューワークフロー向けに調整されたOpenAIとAnthropicモデルの独自ブレンド)

パフォーマンス結果

カバレッジと精度

Gemini 3.1 Proは、カバレッジで4.3ポイント遅れています。実行可能なコメントを24%少なく生成しながら、ターゲットに到達する割合がわずかに高くなっています(33.3%対29.8%)。純粋なカバレッジでは、ベースラインが優位です。

ベースラインのnitpickレベルのコメントは、メインコメントを超えて2つの追加EP(+8.7pp)を検出しますが、GeminiはnitpickコメントでEPを検出しません。

シグナル品質

Geminiは、重要なコメント率が高く(77.8%対71.9%)、S/N比が優れています(3.5対2.6)。そのコメントは深刻な問題として分類される可能性が高くなります。ベースラインと比較して、比例的に軽微なコメントが少なくなります。コメントあたりのシグナル品質では、Geminiが先行しています。

行動レイヤー

ほとんどのベンチマーク記事は、合格率と精度で終わります。しかし、この記事は違います。すべてのコメントにトーン分類を実行して、各モデルがどのようにコミュニケーションするかを測定し、意味のある違いを発見しました。

トーンプロファイル

Geminiはより慎重(0.229対0.175)ですが、同時により断定的(0.756対0.703)で、より自信に満ちています(0.947対0.939)。これは矛盾していません。Geminiがフレーミングを柔らかくする(「検討することをお勧めします…」など)一方で、技術的結論は決定的なままであるスタイルを反映しています。そのコメントは平均的に長いですが、ベースラインと比較してコードブロックや差分パッチを含む可能性は低くなります。

最も鋭い行動的発見:Geminiは自分が正しいときを知っている

トーンメトリクスを合格/不合格の結果で分割すると、強いパターンが現れます。

Geminiの合格コメントは、不合格コメントよりも38%断定的で、33%長くなっています。 Geminiがバグを捕捉すると、測定可能なほど決定的で、詳細で、コードを多く含みます。その内部信頼シグナルは信頼できます。Geminiが断定的で長い場合、おそらく正しいです。

ベースラインは同じ方向性のパターンを示しますが、ギャップは狭くなります。合格コメントと不合格コメントがより似ています。ベースラインのコードブロック率は、コメントが合格するか失敗するかにかかわらずほぼ同じです(88.2%対87.5%)。ベースラインは労力を広く分散させるのに対し、Geminiは集中させる傾向があります。

これは、これらのモデルを使用するチームにとって実用的な意味を持ちます。Geminiのコメントトーンはコメント品質の有用なプロキシです。 簡潔で慎重なGeminiコメントは、断定的でコードの多いコメントよりも懐疑的に見る価値があります。ベースラインのコメントは、精度に関係なく、より均一にフォーマットされています。

Geminiが優れている点

ターゲットに的中したときのコメント密度:両方のモデルが合格するEPにおいて、Geminiの合格コメントはより具体的になる傾向があります。平均的な合格コメントは1174文字で、典型的なベースラインの合格コメント(891文字)よりも約32%長く、症状ではなく根本原因により集中しています。

Geminiが不足している点

並行性とスレッディング(9 EPで56%対78%):これが重大なギャップです。9つのエラーパターンは並行性バグ、ロックの誤用、タイミング依存性、競合状態、ライブロックをカバーしていました。Geminiは5つを検出し、ベースラインは7つを検出しました。このデータセットの支配的なカテゴリでの22ポイントのギャップが、カバレッジの差を引き起こしています。

結論と制限事項

Gemini 3.1 Proは、より高品質で集中的なコメントを生成し、より良いS/N比を持ちますが、全体として検出するバグは少なくなります。3.5対2.6のS/N比は、Geminiのレビューを読む開発者が低品質のコメントに時間を無駄にする可能性が低いことを意味します。

しかし、ベースラインの65.2%に対して60.9%のEP検出率では、より多くの実際のバグが検出されずに残ります。並行性バグが重大なリスクであるコードベースでは、このギャップは重要です。

今後の評価全体で追跡する価値のある発見が1つあります。Geminiの内部トーン調整は強力です。 その断定性スコアは、コメントが根本的な問題に対処する可能性があるかどうかについてのシグナルを提供しているようです。

とはいえ、これらの発見には範囲があります。ベンチマークは、Python、TypeScript、C/C++、混合言語のGitHub Actionsコードベースにまたがる5つのリポジトリの25のエラーパターンをカバーしていますが、エラー分布は並行性バグに大きく偏っています(25 EPのうち9つ)。これは、Geminiが最も苦戦する領域であり、ギャップが最も広い領域でもあります。OOP、トランザクションセマンティクス、または他のバグが支配的なコードベースでは、結果が異なる可能性があります。特にトーン調整の発見は、コメントが正しい可能性が高いという信頼のソースとして扱う前に、より広範なエラー分布で検証する必要があります。


評価実施日:2026年2月24日。ベースライン:Gemini 3.1 Proに対して評価された25の難しいPRの内部ベースライン。GPT-5.1によるトーン分類。グラウンドトゥルースエラー記述に対する独立したLLMジャッジによるコメントごとの合格/不合格の判定。

CodeRabbitを試してみませんか? 14日間の無料トライアルをご利用ください!