

Atsushi Nakatsugawa
October 25, 2025
1 min read
Why LLM models are no longer interchangeableの意訳です。
開発者やプロダクトビルダーにとって、この数年間はLLMがアプリケーション開発を導いてきました。プロダクトを改善したいなら、最新のLLMを利用すれば良い。ただモデルを切り替えるだけで、ツールの性能を一段階引き上げられるのです。
しかし、その時代は終わりました。AnthropicのClaude Sonnet 4.5やOpenAIのGPT-5-Codexのような新しいモデルは、根本的に異なる方向へ分岐し始めています。どのモデルを使うかという選択は、もはや単なるエンジニアリング上の判断ではなく、極めて重要なプロダクト上の意思決定なのです。モデルを切り替えた瞬間に、あなたのプロダクトの「質感」そのものが変わります。
いわゆる「万能モデル時代」は終焉を迎えました。あなたが選ぶモデルは、あなたのプロダクトが何であるか、何をするのか、どのように動作するのか を象徴する存在になります。たとえあなたがそう意図していなくても、です。
本記事では、この新しい時代における3つの驚くべき発見を紹介します。それは「LLM選択がプロダクトの表明になった理由」「モデルが持つ明確な個性とスタイルの違い」、そして「プロンプトが単一命令から適応的システムへ進化すべき理由」の3つです。
LLMモデルの選択は、もはや「新しいAPIを実装すれば済む」といった単純な技術的決定ではありません。これは、どんなユーザー体験を作りたいのか、どのような失敗を許容するのか、何を最適化したいのか、どの指標で優位に立ちたいのかという、プロダクトの方向性を決める意思決定です。
モデルはそれぞれ固有の「性格」や「推論方法」「直感」を持つようになっており、それがプロダクトの“感触”や“振る舞い”を直接的に形作ります。単に「出力が正しいかどうか」ではなく、「どのように考え、どのように伝えるか」まで変わります。違うモデルを選べば、ツールの能力からユーザーとの対話の仕方まで、すべてが異なるのです。
では、モデルの定量的な性能だけを測る従来型ベンチマークが通用しない今、何を頼りにプロダクトの方向を定めれば良いのでしょうか?チームやユーザーへのアンケート、フォーカスグループもありますが、厳密に実施しなければ客観性に欠ける恐れがあります。
CodeRabbitでは、この選択を客観化するために、独自の重要指標のメトリクスを作成しました。このメトリクスは、単なる性能や精度だけを見ません。可読性、冗長性、信号対雑音比など、多面的に評価します。
このような指標により、焦点は「性能」や「リーダーボードの順位」から、「プロダクトとユーザーにとって本当に重要な要素」へと移ります。例えば、技術的に正しくても影響の少ない提案が多すぎれば、ユーザーを疲弊させ、かつトークンを浪費します。理論上「賢い」モデルでも、ユーザーのワークフローに合わなければ体験を悪化させます。
自社のメトリクスを定義し、新しいモデルが自社とユーザーのニーズを満たすかを測ることを強く推奨します。これらのメトリクスは静的なものではなく、ユーザー行動やフィードバックによって進化させるべきです。目標は、「ユーザーの好みを予測できる基準」を見つけることです。
結論として、最適なモデルとは「リーダーボード上の1位」ではなく、あなたの設計した体験やユーザーのニーズに最も本能的に合うモデルです。
モデルはこれまで以上に「作られるものではなく、育つもの」となっており、その結果、モデル世代ごとに固有の直感と行動特性が生まれています。ポストトレーニングの手法(cookbook)の違いが、モデルクラスごとの方向性を根本的に変えました。1つのモデルで完璧に動くプロンプトも、別のモデルでは通用しません。つまり、同じタスクに対する根本的なアプローチが異なるのです。
これを理解する良い例えとして、モデルを異なる「職業的アーキタイプ」に喩えることができます。
Sonnet 4.5は几帳面な会計士出身の開発者、GPT-5-Codexは倫理意識の高い堅実なエンジニア、GPT-5はバグを徹底的に探す職人気質の開発者、Sonnet 4は活動的な新卒エンジニア。
GPT-5系はClaude系よりもソリューション空間を広く探索し、Claudeはプロンプトの文脈に忠実に留まる傾向があります。どのモデルが適しているかは、プロダクトが目指す目的によって完全に異なります。
CodeRabbitでは、モデル評価と特性分析を体系的に行い、その結果を基にプロンプトとデプロイ方法を最適化しています。たとえば、Sonnet 4.5とGPT-5-Codexを比較すると、Sonnet 4.5は「高リコール型のポイント修正者」、GPT-5-Codexは「ピンポイントなパッチ生成者」として性質づけられます。
こうした定性的な違いは、明確な運用上の違いに転化します。
| 次元 | Claude Sonnet 4.5 | GPT-5-Codex |
| デフォルトの語彙選択 | “Critical,” “Add,” “Remove,” “Consider” | “Fix,” “Guard,” “Prevent,” “Restore,” “Drop” |
| 例の効率性 | 明示的なルールを好む。命令形を覚えやすい | 例が少なくても長い文脈でフォーマットを維持できる |
| 思考スタイル | 慎重。多くのバグを見つけるが、重要な1つを見逃すことも | 柔軟。必要に応じて深く考え、再確認を要しない。難解なバグを捕捉しやすい |
| 行動傾向 | 広範囲に修正提案。コメントが多く、人間的。致命的でない問題も拾う | 簡潔でバランスの取れた研究的レビュー。副次的影響を指摘する傾向 |
| レビュー構造 | 「何が悪い」「なぜ悪い」「具体的修正コード」 | 「何をすべきか」「なぜすべきか」「修正コード+影響」 |
| 文脈認識 | コンテキストウィンドウを意識。トークン管理が巧み | 明示的なウィンドウ意識は弱い(時計なしで料理するような感覚) |
| 冗長性 | 高い。読みやすいが語数が倍増 | 低い。情報密度が高く、読むのに集中を要する |
モデルの根本的な性質が分岐したことで、あるモデル用に書いたプロンプトを他モデルで「そのまま」使うことはできなくなっています。
たとえばClaude用の厳格な命令プロンプトはGPT-5-Codexでは過剰拘束になり、Codex用に推論重視で最適化したプロンプトは、Claudeで性能を発揮できません。つまり、「一枚岩のプロンプト時代」は完全に終わったのです。
では、新モデルを導入したいエンジニアリングチームはどうすればよいでしょうか?
答えは――より多くのプロンプトエンジニアリングです。ただし嘆く必要はありません。いくつかの実践的な方法があります。
CodeRabbitで見出した解決策の一つが「プロンプト・サブユニット」です。
これは、モデルに依存しない中核プロンプト(基本タスクと一般指示)を定義し、その上にモデル固有のサブユニット(スタイル、フォーマット、例示)を積み上げる構成です。
たとえばCodexとSonnet 4.5では実装詳細が大きく異なりますが、次のような発見がありました:
Claude: 「DO」「DO NOT」のような強い命令語を使用する。Anthropic系モデルはシステムプロンプトの末尾情報をよく参照し、長文でもフォーマット遵守が得意。明示的な指示を好む。
GPT-5: 一般的で整合性のある指示を使用する。OpenAI系はシステムプロンプトの下部ほど注意力が減衰するため、長文では出力フォーマットを忘れがち。抽象的なガイダンスを好み、推論の深さを示す傾向がある。
もう一つの解決策は、ユーザーフィードバックと内部評価による継続的アップデートです。
AIコードレビューボットなどLLMアプリの最適化において、最も重要なのは外部ベンチマークではなく、「ユーザーが出力に納得できるか」です。
モデル間で「技術的正確性」が高くても、過剰なコメントや冗長性があると価値を下げてしまいます。
したがって、受容率、S/N比、p95レイテンシ、コストといった実運用メトリクスを測定し、プロンプトを少しずつ調整することで、システムをユーザー期待とプロダクト目標に整合させ続けることができます。
ベンチマークでの定量的結果が良くても、ユーザー受容率が低い――そんな事態は避けるべきです。
プロンプトエンジニアリングは、「万能テンプレート」から「モデル特化型パラダイム」へと変わりました。
脆弱な単一プロンプトや「差し替え可能なモデル」の時代は終わりです。これからは、モジュラー型プロンプト設計と意図的なモデル選択が、プロダクトの強靭性を生みます。
モデルが進化し続ける以上、LLMスタックやプロンプトも画一的であってはいけません。
それは「生きたシステム」として扱うべきです。調整し、テストし、確認し、繰り返す。
また、最新モデルの実運用挙動に関する詳細なベンチマークもぜひ確認してください。今後の選択に必要なデータが得られるでしょう。
CodeRabbitを14日間無料でお試しください。
https://coderabbit.link/rk7tdeC