【alphaXiv】DeepSeekMath：オープン言語モデルにおける数学的推論の限界を押し広げる

元論文: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

はじめに

数学的推論は、人工知能にとって最も困難な分野の1つであり続けています。最近の大規模言語モデル（LLM）は、幅広いタスクにわたって目覚ましい能力を発揮していますが、数学におけるパフォーマンスは一般的に人間の専門家に遅れをとっています。最近リリースされたDeepSeekMathモデルは、この分野における大きな進歩を表しており、オープンソースAIモデルが数学的問題解決において達成できることの限界を押し広げています。

DeepSeekMathは、清華大学および北京大学の研究者との共同研究により、DeepSeek-AIによって開発された特殊な言語モデルです。研究チームは、難解なMATHデータセット（競技レベルの数学問題のコレクション）で50％以上の精度を達成し、数学的推論タスクにおいて以前のオープンソースモデルに匹敵するだけでなく、多くの場合それを上回るモデルを作成しました。

$MATHベンチマークにおける他のモデルと比較したDeepSeekMathのパフォーマンス$ 図1：MATHベンチマークにおけるDeepSeekMath-7Bと以前のモデルとのパフォーマンス比較。既存のオープンソースモデルからの劇的な改善を示し、GPT-4のようなクローズドソースモデルのパフォーマンスに近づいています。

AIにおける数学的推論の課題

数学的推論は、AIシステムに独自の課題をもたらします。パターン認識や統計的相関から恩恵を受けることができる多くの自然言語タスクとは異なり、数学は正確な論理的推論、段階的な演繹、および問題を解決するための抽象的な概念の適用を必要とします。これらの特性は、数学的推論をAIシステムの真の知性と推論能力の特に厳格なテストにします。

ごく最近まで、この分野はGPT-4やGemini-Ultraのようなクローズドソースモデルによって支配されており、オープンソースの代替案は大幅に遅れをとっていました。この格差は、独自のソリューションに頼ることができない研究者、教育者、および学生にとって、高性能な数学AIシステムへのアクセスを制限していました。

DeepSeekMathの研究は、いくつかの重要な方法でオープンソースの数学AIを進歩させることによって、このギャップに対処します。

プレトレーニングのための特殊な数学コーパスの作成
数学的推論を強化するためのコードトレーニングの活用
メモリ効率の高い強化学習アルゴリズムの開発
パフォーマンスを継続的に向上させる反復トレーニングアプローチの実装

DeepSeekMathコーパス：高品質なトレーニングデータセットの構築

DeepSeekMathの成功の要は、そのトレーニングデータセットです。研究者らは、Webから抽出された数学コンテンツの特殊なコレクションであるDeepSeekMathコーパスを開発しました。コーパスは、革新的な反復パイプラインを通じて作成されました。

OpenWebMathの数学コンテンツと人間が注釈を付けた例に基づいて、fastText分類器をトレーニングする
この分類器を使用して、Common Crawlデータセットから数学関連のコンテンツを識別する
数学関連のドメインを発見し、コンテンツ抽出プロセスを改良する
データセットの品質を継続的に向上させるためのフィードバックループの作成

DeepSeekMathコーパス作成パイプライン図2：DeepSeekMathコーパス構築のための反復パイプライン。継続的に改善されるfastText分類器を用いて、Common Crawlから数学的コンテンツを抽出する方法を示しています。

このアプローチの有効性は、既存の数学的データセットに対する包括的なベンチマークで実証されています。図3に示すように、DeepSeekMathコーパスは、GSM8K、MATH、CMATH、BBHを含む複数の数学的ベンチマークにおいて、他のデータセット（MathPile、OpenWebMath、Proof-Pile-2）を一貫して上回っています。

数学的データセットの比較図3：異なる数学的データセットで訓練されたモデルのパフォーマンス比較。DeepSeekMathコーパスがさまざまなベンチマークで優れたパフォーマンスを示すことを示しています。

DeepSeekMathモデルのアーキテクチャ

DeepSeekMathモデルは、コードと一般的な言語タスクですでに訓練された70億パラメータのモデルであるDeepSeek-Coder-Base-v1.5を基盤として構築されています。研究者たちは、コードに関する事前の訓練が数学的推論に著しい恩恵をもたらすという重要な発見をしました。この発見は、コーディング能力と数学的な問題解決能力との関係について、AIコミュニティで長年議論されてきた問題に対処するものです。

トレーニングプロセスは、主に次の3つの段階で構成されています。

事前学習: DeepSeekMathコーパス、コード、および一般的な言語データを使用して、ベースモデルをさらにトレーニングします。
教師ありファインチューニング（SFT)：事前学習済みのモデルを、ソリューション付きの厳選された数学的な問題のデータセットでファインチューニングしました。さまざまな推論形式を取り入れています。
- 連鎖思考推論（問題を論理的なステップに分解する）
- プログラム思考推論（コードを使用して数学的な問題を解決する）
- ツール統合推論（問題解決中に計算ツールを利用する）
強化学習: SFTモデルは、Group Relative Policy Optimization（GRPO）と呼ばれる新しい強化学習アプローチを使用してさらに最適化されました。

Group Relative Policy Optimization（GRPO）

DeepSeekMathの研究における重要な革新は、LLMのファインチューニングのために特別に設計された、メモリ効率の高い強化学習アルゴリズムであるGRPOの開発です。GRPOは、Proximal Policy Optimization（PPO）のような人間からのフィードバックによる従来の強化学習（RLHF）アプローチの主な制限の1つである、価値モデルを維持するための高いメモリ要件に対処します。

PPOアルゴリズムとGRPOアルゴリズムの比較図4：従来のPPOと新しいGRPOアプローチの比較。GRPOは、入力ごとに複数の出力を生成し、グループ内の相対的なパフォーマンスに基づいてアドバンテージを計算することにより、価値モデルの必要性を排除します。

GRPOの仕組みは次のとおりです。

問題ごとに複数の候補ソリューションを生成する
報酬モデルを使用してこれらのソリューションを評価する
ソリューションの各グループ内で相対的なアドバンテージを計算する
これらのアドバンテージに基づいてポリシーモデルを更新する

このアプローチは、個別の価値モデルの必要性を排除し、パフォーマンスを維持または向上させながら、メモリ要件を削減します。研究者たちはまた、オンライン強化学習（報酬モデルが継続的に更新される）がオフラインアプローチよりも優れていることを実証しました。

# GRPO の簡略化された擬似コード
def GRPO_update(policy_model, reference_model, reward_model, batch):
    for query in batch:
        # 各クエリに対して複数の出力を生成する
        outputs = [policy_model.generate(query) for _ in range(G)]

        # すべての出力に対する報酬を計算する
        rewards = [reward_model(query, output) for output in outputs]

        # 参照モデルからの KL ダイバージェンスを計算する
        kl_penalties = [compute_kl(output, reference_model) for output in outputs]

        # 調整された報酬を計算する
        adjusted_rewards = [r - beta * kl for r, kl in zip(rewards, kl_penalties)]

        # グループ内のアドバンテージを計算する
        mean_reward = sum(adjusted_rewards) / len(adjusted_rewards)
        advantages = [r - mean_reward for r in adjusted_rewards]

        # アドバンテージに基づいてポリシーを更新する
        for output, advantage in zip(outputs, advantages):
            policy_model.update(query, output, advantage)

パフォーマンスベンチマーク

DeepSeekMath モデルは、包括的な数学ベンチマークセットで評価されました。

小学校および高校の数学: GSM8K (小学校の数学), MATH (コンテスト数学)
中国の数学の問題: CMATH
形式数学: Lean 定理証明
一般的な推論: Big Bench Hard (BBH)

DeepSeekMath-Instruct 7B は、次のような目覚ましい成果を上げています。

GSM8K (小学校の数学の問題) で 88.6%
MATH (コンテストレベルの数学の問題) で 51.7%
中国の数学ベンチマークで最先端のパフォーマンス

反復的な強化学習プロセスは、図 5 に示すように、トレーニングの反復を通じて継続的な改善を示しています。

RL 反復によるパフォーマンスの向上 図 5: GSM8K および MATH ベンチマークにおける強化学習の反復によるパフォーマンスの向上。各反復で一貫した改善が見られます。

特に興味深い発見は、モデルが複数の解を生成し、多数決を行う Majority-at-K (Maj@K) のパフォーマンスの向上によって示されるように、RL がモデルの出力分布のロバスト性を大幅に向上させることです。

多数決によるパフォーマンスの比較 図 6: 強化学習の前後の多数決 (Maj@K) と pass@K メトリクスのパフォーマンス比較。RL トレーニング後にロバスト性が向上しています。

主な発見と洞察

DeepSeekMath の研究により、LLM における数学的推論についていくつかの重要な洞察が得られました。

データの品質は量に勝る: DeepSeekMath コーパスは、いくつかの代替案よりも小さいものの、高品質の数学コンテンツを提供し、パフォーマンスの向上につながります。これは、的を絞った高品質のデータは、単にデータセットのサイズを増やすよりも価値があるという原則を裏付けています。
コードトレーニングは数学に役立つ: 数学の微調整の前にコードで事前トレーニングされたモデルは、数学的推論タスクで著しく優れたパフォーマンスを発揮します。これは、プログラミングと数学の問題解決の間で共有される認知メカニズムを示唆しています。
arXiv は万能薬ではない: 一般的な考えに反して、arXiv 論文でトレーニングしても、この研究で使用されたベンチマークデータセットで目立った改善は見られませんでした。これは、学術論文が数学 AI モデルのトレーニングに理想的であるという仮定に異議を唱えています。
プロセス監視は結果監視よりも優れている: RL の報酬モデルをトレーニングする場合、問題解決プロセス (ソリューションがどのように導き出されるか) を監視する方が、最終的な答えを評価するよりも効果的です。
オンライン RL はオフライン RL よりも優れている: 強化学習中に報酬モデルを継続的に更新すると、固定されたままにするよりも優れたパフォーマンスにつながり、適応学習アプローチの利点が強調されます。

この研究では、比較的小規模なモデル（70億パラメータ）でも、適切なデータと最適化手法でトレーニングすれば、競争力のある性能を達成できることが示されています。これは、強力な数学的推論能力を実現するために、必ずしも非常に大規模なモデルが必要ではないことを示唆しています。

影響と応用

DeepSeekMathは、さまざまな分野で多くの潜在的な応用が可能です。

教育: 小学校から大学数学まで、さまざまなレベルの学生に、パーソナライズされた個別指導や問題解決の支援を提供します。
研究: 数学者や科学者が、複雑な数学的概念を探求し、証明や解決策を生成するのを支援します。
工学と科学: 数学的モデリングに大きく依存する、物理学、工学、経済学などの分野での問題解決をサポートします。
アクセシビリティ: 高価な独自モデルへのアクセスがない個人や組織が、高度な数学支援を利用できるようにします。

特定の応用以外にも、DeepSeekMathは、より一般的なAI推論能力に向けた重要な一歩となります。数学的推論は、より広範な論理的思考および分析的思考の代用となり、この分野の改善は、AI推論全般に恩恵をもたらす可能性があります。

結論

DeepSeekMathは、データ品質、特殊な事前トレーニング、革新的な強化学習技術に注意を払うことで、オープンソースのAIモデルが数学的推論において競争力のある性能を達成できることを示しています。このモデルの開発アプローチは、AI推論能力をより広範に改善するための貴重な洞察を提供します。

この研究は、数学AIを進歩させるための3つの重要な要素を強調しています。

高品質でドメイン固有のデータセット
関連ドメイン（コードや数学など）間の転移学習
禁止的な計算要件なしにモデルのパフォーマンスを最大化できる効率的な強化学習技術

オープンソースモデルとして、DeepSeekMathはAIにおける数学的推論の境界を押し広げるだけでなく、これらの機能を世界中の研究者、教育者、開発者が利用できるようにします。これは、高度なAI機能を民主化し、その潜在的な応用を拡大するための重要な一歩となります。

汎用LLMと並行して、DeepSeekMathのような特殊モデルの継続的な開発は、AIシステムが幅広い知識と特定の分野における深い専門知識を組み合わせることができる未来を示唆しています。これは人間の専門家が行うこととよく似ています。このバランスの取れたアプローチは、最終的に、広範な理解と深い理解の両方を必要とする複雑な現実世界の問題に対処するのに最も効果的であることが証明される可能性があります。

【alphaXiv】DeepSeekMath：オープン言語モデルにおける数学的推論の限界を押し広げる

はじめに

AIにおける数学的推論の課題

DeepSeekMathコーパス：高品質なトレーニングデータセットの構築

DeepSeekMathモデルのアーキテクチャ

Group Relative Policy Optimization（GRPO）

パフォーマンスベンチマーク

主な発見と洞察

影響と応用

結論

関連する参考文献

投稿をさらに読み込む

【勝手翻訳】Linearは私をローカルファーストのウサギの穴に導いた

【勝手翻訳】[RooVetGit/Roo-Code] Release v3.23.14

【勝手翻訳】[RooVetGit/Roo-Code] Release v3.23.13

【勝手翻訳】[backstage/backstage] Release v1.41.0