Alti blog

(実験サイトでのブログなのでサイトが落ちてたらごめんなさい)

投稿者: 高地

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.21.0

    ソース: Release Release v3.21.0 · RooCodeInc/Roo-Code

    [3.21.0] – 2025-06-17

    • Roo Marketplace を追加すると、優れた MCP やモードを簡単に見つけてインストールできるようになります。
    • Gemini 2.5 モデル (Pro、Flash、Flash Lite) を追加 (@daniel-lxs さん、ありがとう!)
    • ツールで Excel (.xlsx) ファイルのサポートを追加 (@chrarnoldus さん、ありがとう!)
    • OpenAI 互換プロバイダーの最大トークン数チェックボックスオプションを追加 (@AlexandruSmirnov さん、ありがとう!)
    • Groq と Mistral のプロバイダーモデルと価格を更新 (@KanTakahiro さん、ありがとう!)
    • API 会話履歴の問題に対する適切なエラー処理を追加 (@KJ7LNW さん、ありがとう!)
    • 曖昧なモデル ID エラーを修正 (@elianiva さん、ありがとう!)
    • プロンプト設定の保存/破棄/元に戻すフローを修正 (@hassoncs さん、ありがとう!)
    • リストファイルの隠しディレクトリフィルタリングにおけるコードベースのインデックス作成の調整を修正 (@daniel-lxs さん、ありがとう!)
    • サブタスク完了の不一致を修正 (@feifei325 さん、ありがとう!)
    • MCP 変数インジェクションにおける Windows パスの正規化を修正 (@daniel-lxs さん、ありがとう!)
    • マーケットプレイスのブランディングを更新「Roo Marketplace」(@SannidhyaSah さん、ありがとうございます!)
    • 履歴 UI をより一貫性のあるものにリファクタリングしました(@elianiva さん、ありがとうございます!)
    • コンテキストメニューの位置を Copilot の近くになるように調整しました
    • evals の Docker 設定を Windows で動作するように更新しました(@StevenTCramer さん、ありがとうございます!)
    • ターミナルの詳細に現在の作業ディレクトリを含めました
    • 複数ファイルの diff で start_line の使用を推奨し、従来の diff と一致させました
    • メニューボタンが表示されるように、クリック時に常にパネルにフォーカスを設定しました(@hassoncs さん、ありがとうございます!)

    ———

    個人メモ

    自分の環境では、Roo Marketplace を追加していたのですが、やはりポチポチ作業でMCPサーバーを追加できるので便利ですね。MCPなどのAIの流行に対して、セキュリティツールやシステムの配慮はまだ遅れているので、セキュリティへのケアはユーザー/開発者自身でのケアに依存するので、暫くは要配慮です。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.20.3

    ソース: Release Release v3.20.2 · RooCodeInc/Roo-Code

    [3.20.3] – 2025-06-13

    • マルチモニター環境での diff エディターの競合状態を解決しました (@daniel-lxs さん、ありがとうございます!)
    • 設定ファイルの編集が自動承認されないようにロジックを追加しました
    • ワークスペース外のファイルの検索と一覧表示を調整し、自動承認設定を尊重するようにしました
    • インドネシア語翻訳のサポートを追加しました (@chrarnoldus さん、@daniel-lxs さん、ありがとうございます!)
    • 複数ファイルの diff エラー処理と UI フィードバックを修正しました (@daniel-lxs さん、ありがとうございます!)
    • プロンプト履歴ナビゲーションを改善し、テキスト編集の妨げにならないようにしました (@daniel-lxs さん、ありがとうございます!)
    • maxReadFileLine のデフォルト値の誤りを修正しました

    ———

    個人メモ

    ほぼ社内用に始めたこのリリースの勝手翻訳ですが、1日に2回のリリースは開始して初めてですね。日本では Claude Code の勢いが盛んですが、Roo Code もまだまだ勢いありますね。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.20.2

    ソース: Release Release v3.20.2 · RooCodeInc/Roo-Code

    [3.20.2] – 2025-06-13

    • セキュリティ強化のため、search_files をワークスペース内のみで検索するように制限しました。
    • セキュリティ脆弱性修正のため、tar-fs >=2.1.3 を強制しました。
    • Unbound のカスタム頂点モデルにキャッシュブレークポイントを追加しました (@pugazhendhi-m さん、ありがとうございます!)
    • 修正を加えて、bedrock の推論を再適用しました (@daniel-lxs さん、ありがとうございます!)
    • UI の一貫性を保つため、BatchDiffApproval のスタイルを BatchFilePermission と同期しました (@samhvw8 さん、ありがとうございます!)
    • UX 向上のため、MCP 実行レスポンスに最大高さ制約を追加しました (@samhvw8 さん、ありがとうございます!)
    • MCP の「インストール済み」ラベルが圧縮されないようにしました #4630 (@daniel-lxs さん、ありがとうございます!)
    • コンテキスト圧縮のしきい値を低く設定できるようにしました (@SECKainersdorfer さん、ありがとうございます!)
    • コードベースをクリーンにするため、型システムの重複を回避しました (@EamonNerbonne さん、ありがとうございます!)

    ———

    個人メモ

    セキュリティ強化のため、search_files をワークスペース内のみで検索するように制限しました。 は安全性という意味で、大変ありがたい変更ですね。

  • 【勝手翻訳】Linear Changelog June 12, 2025

    ソース: Project labels – Changelog

    ユーザーがグローバルeバイクローンチプロジェクトにプロジェクトラベルを追加している様子を示しています。ユーザーは「ハッカソン」というラベルを選択するか、「ローンチティア」、「ワークストリーム」のいずれかのラベルグループからラベルを適用できます。

    プロジェクトラベルを使用して、ワークスペース全体のプロジェクトを整理できます。ラベルを適用することで、カスタム属性を使用してプロジェクトを分類し、組織独自の方法でグループ化、フィルタリング、表示できます。プロジェクトラベルはカスタムビューで使用でき、Insights 内でスライスおよびセグメンテーションオプションとして利用できます。

    ラベルグループ内の異なるプロジェクトラベル間で問題がどのように分散しているかを示すインサイト

    プロジェクトリストビューで、ラベルグループを明示的な表示プロパティとしてサポートするようになりました。これにより、各グループに専用の列が割り当てられます。

    プロジェクトラベルを表す2つの列を持つプロジェクトリストビューを示します。1つの列には、セキュリティ、新機能、改善のラベルが付けられたプロジェクトを含む投資領域が表示されます。別の列には、起動階層が Tier 1、Tier 2、または Tier 3 として表示されます

    ワークスペースの 設定 でプロジェクトラベルを作成および管理できます。

    課題ビューとプロジェクトビューでグループ化されたヘッダーを折りたたむことができるようになりました。グループを折りたたんだり展開したりするには、切り替えボタンを使用するか、グループにマウスオーバーしながら T キーを押します。すべてのヘッダーを一度に切り替えるには、Opt/Alt キーを押したままにします。

    大規模な共同作業ドキュメントの編集速度が最大 50 倍向上しました。表の編集も大幅に高速化されました。

    AccelがリードするシリーズCラウンドで、評価額12億5000万ドル、8200万ドルを調達できたことをお知らせいたします。私たちは引き続き、製品開発とチームやツール間の連携をスムーズにすることに注力していきます。詳しくはブログをご覧ください。

    ——

    個人メモ

    Roo Code以外に、英語圏で私達が課金しているツールのリリース記事もほぼ者内容ですが、勝手翻訳していこうと思います。 しかし、資金調達もできて、絶好調ですね。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.20.1

    ソース: Release Release v3.20.1 · RooCodeInc/Roo-Code

    [3.20.1] – 2025-06-12

    • Bedrockモデルの思考サポートを一時的に元に戻します
    • MCP実行ブロックのパフォーマンスを改善します
    • チャットビューにインデックス作成ステータスバッジを追加します

    ———

    個人メモ

    元に戻す / revert の判断が早いw

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.20.0

    ソース: Release Release v3.20.0 · RooCodeInc/Roo-Code

    [3.20.0] – 2025-06-12

    • 拡張機能とモード用の実験的なマーケットプレイスを追加 (@Smartsheet-JB-Brown、@elianiva、@monkeyDluffy6017、@NamesMT、@daniel-lxs、Cline などに感謝!)
    • 実験的な複数ファイル編集を追加 (@samhvw8 に感謝!)
    • 同時読み取り設定をコンテキスト設定に移動し、デフォルトを 5 に設定
    • MCP 実行 UX を改善 (@samhvw8 に感謝!)
    • ワークスペースフォルダーインジェクションを使用した MCP のマジック変数サポートを追加 (@NamesMT に感謝!)
    • プロンプトフィールドの上下矢印キーによるプロンプト履歴ナビゲーションを追加
    • コンテキストメンションのエスケープをサポート (@KJ7LNW に感謝!)
    • Chutes プロバイダーに DeepSeek R1 サポートを追加
    • 拡張思考のための推論予算サポートを Bedrock モデルに追加
    • マーメイドダイアグラムサポートボタンを追加 (@qdaxb に感謝!)
    • XAI モデルと価格を更新 (@edwin-truthsearch-io に感謝!)
    • O3 モデルの価格を更新
    • マニュアルを追加OpenAI互換のフォーマット仕様と解析 (@dflatline さん、ありがとう!)
    • 包括的なカバレッジのためのコアツール統合テストを追加
    • ClineAskおよびClineSay型のJSDocドキュメントを追加 (@hannesrudolph さん、ありがとう!)
    • 組み込みモードのwhenToUseの説明を入力
    • relPathとnewContentの早期検証チェックを含むファイル書き込みツールを修正 (@Ruakij さん、ありがとう!)
    • タスクメッセージ内のHTMLタグによるTaskItemの表示とコピーの問題を修正 (@forestyoo さん、ありがとう!)
    • BYOKによるOpenRouterのコスト計算を修正 (@chrarnoldus さん、ありがとう!)
    • 手動コマンド完了後の端末ビジー状態のリセットを修正
    • 複数ファイルのapply_diff操作で未定義の出力を修正 (@daniel-lxs さん、ありがとう!)

    ———

    個人メモ

    マーケットプレイスが実験的に追加されたようですね。 実験的なので、デフォルト OFF でしたので、

    experimental screen shot

    のように、 実験的 -> Marketplaceを有効にする で有効に変更後、保存すると、上部に vscode の拡張機能アイコンと同じようなものが表示され、Marketplace から MCP サーバの導入などが行えるようになりました。

    market place screen shot

    こちらは本家 Cline との大きな差で、MCP 関連のユーザビリティの差になっていたので、非常に頼もしいアップデートですね。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.19.6

    ソース: Release Release v3.19.6 · RooCodeInc/Roo-Code

    [3.19.6] – 2025-06-09

    • Gemini モデルのレイテンシを削減するため、明示的なキャッシュを暗黙的なキャッシュに置き換えました。
    • デフォルトの同時ファイル読み取り制限が 15 ファイルであることを明確にしました (@olearycrew さん、ありがとうございます!)
    • コピーボタンのロジックを修正しました (@samhvw8 さん、ありがとうございます!)
    • 進行中の操作がない場合、履歴プレビューのボタンをフェードアウトします (@sachasayan さん、ありがとうございます!)
    • MCP サーバーの更新を許可し、MCP サーバー管理 UI ビューの状態変更を修正しました (@taylorwilsdon さん、ありがとうございます!)
    • 一部の npm スクリプトで不要な npx の使用を削除しました (@user202729 さん、ありがとうございます!)
    • LiteLLM プロバイダー使用時に末尾のスラッシュエラーが発生するバグを修正しました (@kcwhite さん、ありがとうございます!)

    ———

    個人メモ

    v3.19.5 はリリースを見送られたみたいですね。念の為。

  • 【alphaXiv】DeepSeekMath:オープン言語モデルにおける数学的推論の限界を押し広げる

    元論文: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

    はじめに

    数学的推論は、人工知能にとって最も困難な分野の1つであり続けています。最近の大規模言語モデル(LLM)は、幅広いタスクにわたって目覚ましい能力を発揮していますが、数学におけるパフォーマンスは一般的に人間の専門家に遅れをとっています。最近リリースされたDeepSeekMathモデルは、この分野における大きな進歩を表しており、オープンソースAIモデルが数学的問題解決において達成できることの限界を押し広げています。

    DeepSeekMathは、清華大学および北京大学の研究者との共同研究により、DeepSeek-AIによって開発された特殊な言語モデルです。研究チームは、難解なMATHデータセット(競技レベルの数学問題のコレクション)で50%以上の精度を達成し、数学的推論タスクにおいて以前のオープンソースモデルに匹敵するだけでなく、多くの場合それを上回るモデルを作成しました。

    MATHベンチマークにおける他のモデルと比較したDeepSeekMathのパフォーマンス 図1:MATHベンチマークにおけるDeepSeekMath-7Bと以前のモデルとのパフォーマンス比較。既存のオープンソースモデルからの劇的な改善を示し、GPT-4のようなクローズドソースモデルのパフォーマンスに近づいています。

    AIにおける数学的推論の課題

    数学的推論は、AIシステムに独自の課題をもたらします。パターン認識や統計的相関から恩恵を受けることができる多くの自然言語タスクとは異なり、数学は正確な論理的推論、段階的な演繹、および問題を解決するための抽象的な概念の適用を必要とします。これらの特性は、数学的推論をAIシステムの真の知性と推論能力の特に厳格なテストにします。

    ごく最近まで、この分野はGPT-4やGemini-Ultraのようなクローズドソースモデルによって支配されており、オープンソースの代替案は大幅に遅れをとっていました。この格差は、独自のソリューションに頼ることができない研究者、教育者、および学生にとって、高性能な数学AIシステムへのアクセスを制限していました。

    DeepSeekMathの研究は、いくつかの重要な方法でオープンソースの数学AIを進歩させることによって、このギャップに対処します。

    1. プレトレーニングのための特殊な数学コーパスの作成
    2. 数学的推論を強化するためのコードトレーニングの活用
    3. メモリ効率の高い強化学習アルゴリズムの開発
    4. パフォーマンスを継続的に向上させる反復トレーニングアプローチの実装

    DeepSeekMathコーパス:高品質なトレーニングデータセットの構築

    DeepSeekMathの成功の要は、そのトレーニングデータセットです。研究者らは、Webから抽出された数学コンテンツの特殊なコレクションであるDeepSeekMathコーパスを開発しました。コーパスは、革新的な反復パイプラインを通じて作成されました。

    1. OpenWebMathの数学コンテンツと人間が注釈を付けた例に基づいて、fastText分類器をトレーニングする
    2. この分類器を使用して、Common Crawlデータセットから数学関連のコンテンツを識別する
    3. 数学関連のドメインを発見し、コンテンツ抽出プロセスを改良する
    4. データセットの品質を継続的に向上させるためのフィードバックループの作成

    DeepSeekMathコーパス作成パイプライン 図2:DeepSeekMathコーパス構築のための反復パイプライン。継続的に改善されるfastText分類器を用いて、Common Crawlから数学的コンテンツを抽出する方法を示しています。

    このアプローチの有効性は、既存の数学的データセットに対する包括的なベンチマークで実証されています。図3に示すように、DeepSeekMathコーパスは、GSM8K、MATH、CMATH、BBHを含む複数の数学的ベンチマークにおいて、他のデータセット(MathPile、OpenWebMath、Proof-Pile-2)を一貫して上回っています。

    数学的データセットの比較 図3:異なる数学的データセットで訓練されたモデルのパフォーマンス比較。DeepSeekMathコーパスがさまざまなベンチマークで優れたパフォーマンスを示すことを示しています。

    DeepSeekMathモデルのアーキテクチャ

    DeepSeekMathモデルは、コードと一般的な言語タスクですでに訓練された70億パラメータのモデルであるDeepSeek-Coder-Base-v1.5を基盤として構築されています。研究者たちは、コードに関する事前の訓練が数学的推論に著しい恩恵をもたらすという重要な発見をしました。この発見は、コーディング能力と数学的な問題解決能力との関係について、AIコミュニティで長年議論されてきた問題に対処するものです。

    トレーニングプロセスは、主に次の3つの段階で構成されています。

    1. 事前学習: DeepSeekMathコーパス、コード、および一般的な言語データを使用して、ベースモデルをさらにトレーニングします。
    2. 教師ありファインチューニング(SFT):事前学習済みのモデルを、ソリューション付きの厳選された数学的な問題のデータセットでファインチューニングしました。さまざまな推論形式を取り入れています。
      • 連鎖思考推論(問題を論理的なステップに分解する)
      • プログラム思考推論(コードを使用して数学的な問題を解決する)
      • ツール統合推論(問題解決中に計算ツールを利用する)
    3. 強化学習: SFTモデルは、Group Relative Policy Optimization(GRPO)と呼ばれる新しい強化学習アプローチを使用してさらに最適化されました。

    Group Relative Policy Optimization(GRPO)

    DeepSeekMathの研究における重要な革新は、LLMのファインチューニングのために特別に設計された、メモリ効率の高い強化学習アルゴリズムであるGRPOの開発です。GRPOは、Proximal Policy Optimization(PPO)のような人間からのフィードバックによる従来の強化学習(RLHF)アプローチの主な制限の1つである、価値モデルを維持するための高いメモリ要件に対処します。

    PPOアルゴリズムとGRPOアルゴリズムの比較 図4:従来のPPOと新しいGRPOアプローチの比較。GRPOは、入力ごとに複数の出力を生成し、グループ内の相対的なパフォーマンスに基づいてアドバンテージを計算することにより、価値モデルの必要性を排除します。

    GRPOの仕組みは次のとおりです。

    1. 問題ごとに複数の候補ソリューションを生成する
    2. 報酬モデルを使用してこれらのソリューションを評価する
    3. ソリューションの各グループ内で相対的なアドバンテージを計算する
    4. これらのアドバンテージに基づいてポリシーモデルを更新する

    このアプローチは、個別の価値モデルの必要性を排除し、パフォーマンスを維持または向上させながら、メモリ要件を削減します。研究者たちはまた、オンライン強化学習(報酬モデルが継続的に更新される)がオフラインアプローチよりも優れていることを実証しました。

    # GRPO の簡略化された擬似コード
    def GRPO_update(policy_model, reference_model, reward_model, batch):
        for query in batch:
            # 各クエリに対して複数の出力を生成する
            outputs = [policy_model.generate(query) for _ in range(G)]
    
            # すべての出力に対する報酬を計算する
            rewards = [reward_model(query, output) for output in outputs]
    
            # 参照モデルからの KL ダイバージェンスを計算する
            kl_penalties = [compute_kl(output, reference_model) for output in outputs]
    
            # 調整された報酬を計算する
            adjusted_rewards = [r - beta * kl for r, kl in zip(rewards, kl_penalties)]
    
            # グループ内のアドバンテージを計算する
            mean_reward = sum(adjusted_rewards) / len(adjusted_rewards)
            advantages = [r - mean_reward for r in adjusted_rewards]
    
            # アドバンテージに基づいてポリシーを更新する
            for output, advantage in zip(outputs, advantages):
                policy_model.update(query, output, advantage)

    パフォーマンスベンチマーク

    DeepSeekMath モデルは、包括的な数学ベンチマークセットで評価されました。

    1. 小学校および高校の数学: GSM8K (小学校の数学), MATH (コンテスト数学)
    2. 中国の数学の問題: CMATH
    3. 形式数学: Lean 定理証明
    4. 一般的な推論: Big Bench Hard (BBH)

    DeepSeekMath-Instruct 7B は、次のような目覚ましい成果を上げています。

    • GSM8K (小学校の数学の問題) で 88.6%
    • MATH (コンテストレベルの数学の問題) で 51.7%
    • 中国の数学ベンチマークで最先端のパフォーマンス

    反復的な強化学習プロセスは、図 5 に示すように、トレーニングの反復を通じて継続的な改善を示しています。

    RL 反復によるパフォーマンスの向上 図 5: GSM8K および MATH ベンチマークにおける強化学習の反復によるパフォーマンスの向上。各反復で一貫した改善が見られます。

    特に興味深い発見は、モデルが複数の解を生成し、多数決を行う Majority-at-K (Maj@K) のパフォーマンスの向上によって示されるように、RL がモデルの出力分布のロバスト性を大幅に向上させることです。

    多数決によるパフォーマンスの比較 図 6: 強化学習の前後の多数決 (Maj@K) と pass@K メトリクスのパフォーマンス比較。RL トレーニング後にロバスト性が向上しています。

    主な発見と洞察

    DeepSeekMath の研究により、LLM における数学的推論についていくつかの重要な洞察が得られました。

    1. データの品質は量に勝る: DeepSeekMath コーパスは、いくつかの代替案よりも小さいものの、高品質の数学コンテンツを提供し、パフォーマンスの向上につながります。これは、的を絞った高品質のデータは、単にデータセットのサイズを増やすよりも価値があるという原則を裏付けています。
    2. コードトレーニングは数学に役立つ: 数学の微調整の前にコードで事前トレーニングされたモデルは、数学的推論タスクで著しく優れたパフォーマンスを発揮します。これは、プログラミングと数学の問題解決の間で共有される認知メカニズムを示唆しています。
    3. arXiv は万能薬ではない: 一般的な考えに反して、arXiv 論文でトレーニングしても、この研究で使用されたベンチマークデータセットで目立った改善は見られませんでした。これは、学術論文が数学 AI モデルのトレーニングに理想的であるという仮定に異議を唱えています。
    4. プロセス監視は結果監視よりも優れている: RL の報酬モデルをトレーニングする場合、問題解決プロセス (ソリューションがどのように導き出されるか) を監視する方が、最終的な答えを評価するよりも効果的です。
    5. オンライン RL はオフライン RL よりも優れている: 強化学習中に報酬モデルを継続的に更新すると、固定されたままにするよりも優れたパフォーマンスにつながり、適応学習アプローチの利点が強調されます。

    この研究では、比較的小規模なモデル(70億パラメータ)でも、適切なデータと最適化手法でトレーニングすれば、競争力のある性能を達成できることが示されています。これは、強力な数学的推論能力を実現するために、必ずしも非常に大規模なモデルが必要ではないことを示唆しています。

    影響と応用

    DeepSeekMathは、さまざまな分野で多くの潜在的な応用が可能です。

    1. 教育: 小学校から大学数学まで、さまざまなレベルの学生に、パーソナライズされた個別指導や問題解決の支援を提供します。
    2. 研究: 数学者や科学者が、複雑な数学的概念を探求し、証明や解決策を生成するのを支援します。
    3. 工学と科学: 数学的モデリングに大きく依存する、物理学、工学、経済学などの分野での問題解決をサポートします。
    4. アクセシビリティ: 高価な独自モデルへのアクセスがない個人や組織が、高度な数学支援を利用できるようにします。

    特定の応用以外にも、DeepSeekMathは、より一般的なAI推論能力に向けた重要な一歩となります。数学的推論は、より広範な論理的思考および分析的思考の代用となり、この分野の改善は、AI推論全般に恩恵をもたらす可能性があります。

    結論

    DeepSeekMathは、データ品質、特殊な事前トレーニング、革新的な強化学習技術に注意を払うことで、オープンソースのAIモデルが数学的推論において競争力のある性能を達成できることを示しています。このモデルの開発アプローチは、AI推論能力をより広範に改善するための貴重な洞察を提供します。

    この研究は、数学AIを進歩させるための3つの重要な要素を強調しています。

    1. 高品質でドメイン固有のデータセット
    2. 関連ドメイン(コードや数学など)間の転移学習
    3. 禁止的な計算要件なしにモデルのパフォーマンスを最大化できる効率的な強化学習技術

    オープンソースモデルとして、DeepSeekMathはAIにおける数学的推論の境界を押し広げるだけでなく、これらの機能を世界中の研究者、教育者、開発者が利用できるようにします。これは、高度なAI機能を民主化し、その潜在的な応用を拡大するための重要な一歩となります。

    汎用LLMと並行して、DeepSeekMathのような特殊モデルの継続的な開発は、AIシステムが幅広い知識と特定の分野における深い専門知識を組み合わせることができる未来を示唆しています。これは人間の専門家が行うこととよく似ています。このバランスの取れたアプローチは、最終的に、広範な理解と深い理解の両方を必要とする複雑な現実世界の問題に対処するのに最も効果的であることが証明される可能性があります。

    関連する参考文献

    D. Hendrycks、C. Burns、S. Kadavath、A. Arora、S. Basart、E. Tang、D. Song、およびJ. Steinhardt。MATHデータセットを使用した数学的な問題解決の測定。arXivプレプリントarXiv:2103.03874、2021年。

    • この参考文献では、MATHデータセットを紹介しています。これは、論文全体を通してDeepSeekMathモデルを評価するために使用される主要なベンチマークです。この論文では、成功の重要な尺度としてMATHで高いスコアを達成することを強調しています。

    K. Cobbe、V. Kosaraju、M. Bavarian、M. Chen、H. Jun、L. Kaiser、M. Plappert、J. Tworek、J. Hilton、R. Nakanoら。数学の文章問題を解決するための検証者のトレーニング。arXivプレプリントarXiv:2110.14168、2021年。

    • この参考文献では、GSM8Kデータセットを紹介しています。これは、DeepSeekMathにおける数学的推論を評価するためのもう1つの重要なベンチマークです。この論文では、モデルのパフォーマンスを評価するために、MATHと並行してGSM8Kを使用しています。

    A. Lewkowycz、A. Andreassen、D. Dohan、E. Dyer、H. Michalewski、V. Ramasesh、A. Slone、C. Anil、I. Schlag、T. Gutman-Soloら。言語モデルによる定量的推論問題の解決。AdvancesinNeuralInformationProcessingSystems、35:3843–3857、2022a。

    • この引用は、GoogleのクローズドソースモデルであるMinervaを紹介するもので、数学的推論を専門としています。DeepSeekMathは、Minervaと比較して、競争力のある、あるいはそれ以上の結果を示すことを目指しています。

    D. Guo, Q. Zhu, D. Yang, Z. Xie, K. Dong, W. Zhang, G. Chen, X. Bi, Y. Wu, Y. K. Li, F. Luo, Y. Xiong, and W. Liang. Deepseek-coder: When the large language model meets programming – the rise of code intelligence, 2024.

    • この引用は、DeepSeekMathの初期化元となったモデルであるDeepSeek-Coderに関するものです。この論文では、数学的推論を向上させるために、コードで学習されたモデルから始めることの利点を強調しています。
  • 銀行口座の選定

    二社目の起業、設立前のタスク – Alti blog から一部深堀りします。3回目です。

    選択肢

    • リアル銀行
      • 三菱UFJ銀行
      • 三井住友銀行
      • みずほ銀行
      • ゆうちょ銀行
    • ネット銀行
      • GMOあおぞらネット銀行
      • 住信SBIネット銀行
      • PayPay銀行
  • X/Twitterアカウントを作成しました!

    まだ運用方針決めていないですが、本ブログの投稿通知のために、X/Twitterアカウント を作成してみました。