Alti blog

(実験サイトでのブログなのでサイトが落ちてたらごめんなさい)

カテゴリー: 勝手日本語翻訳

注目しているものの英語を勝手に日本語に翻訳したもの
  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.20.1

    ソース: Release Release v3.20.1 · RooCodeInc/Roo-Code

    [3.20.1] – 2025-06-12

    • Bedrockモデルの思考サポートを一時的に元に戻します
    • MCP実行ブロックのパフォーマンスを改善します
    • チャットビューにインデックス作成ステータスバッジを追加します

    ———

    個人メモ

    元に戻す / revert の判断が早いw

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.20.0

    ソース: Release Release v3.20.0 · RooCodeInc/Roo-Code

    [3.20.0] – 2025-06-12

    • 拡張機能とモード用の実験的なマーケットプレイスを追加 (@Smartsheet-JB-Brown、@elianiva、@monkeyDluffy6017、@NamesMT、@daniel-lxs、Cline などに感謝!)
    • 実験的な複数ファイル編集を追加 (@samhvw8 に感謝!)
    • 同時読み取り設定をコンテキスト設定に移動し、デフォルトを 5 に設定
    • MCP 実行 UX を改善 (@samhvw8 に感謝!)
    • ワークスペースフォルダーインジェクションを使用した MCP のマジック変数サポートを追加 (@NamesMT に感謝!)
    • プロンプトフィールドの上下矢印キーによるプロンプト履歴ナビゲーションを追加
    • コンテキストメンションのエスケープをサポート (@KJ7LNW に感謝!)
    • Chutes プロバイダーに DeepSeek R1 サポートを追加
    • 拡張思考のための推論予算サポートを Bedrock モデルに追加
    • マーメイドダイアグラムサポートボタンを追加 (@qdaxb に感謝!)
    • XAI モデルと価格を更新 (@edwin-truthsearch-io に感謝!)
    • O3 モデルの価格を更新
    • マニュアルを追加OpenAI互換のフォーマット仕様と解析 (@dflatline さん、ありがとう!)
    • 包括的なカバレッジのためのコアツール統合テストを追加
    • ClineAskおよびClineSay型のJSDocドキュメントを追加 (@hannesrudolph さん、ありがとう!)
    • 組み込みモードのwhenToUseの説明を入力
    • relPathとnewContentの早期検証チェックを含むファイル書き込みツールを修正 (@Ruakij さん、ありがとう!)
    • タスクメッセージ内のHTMLタグによるTaskItemの表示とコピーの問題を修正 (@forestyoo さん、ありがとう!)
    • BYOKによるOpenRouterのコスト計算を修正 (@chrarnoldus さん、ありがとう!)
    • 手動コマンド完了後の端末ビジー状態のリセットを修正
    • 複数ファイルのapply_diff操作で未定義の出力を修正 (@daniel-lxs さん、ありがとう!)

    ———

    個人メモ

    マーケットプレイスが実験的に追加されたようですね。 実験的なので、デフォルト OFF でしたので、

    experimental screen shot

    のように、 実験的 -> Marketplaceを有効にする で有効に変更後、保存すると、上部に vscode の拡張機能アイコンと同じようなものが表示され、Marketplace から MCP サーバの導入などが行えるようになりました。

    market place screen shot

    こちらは本家 Cline との大きな差で、MCP 関連のユーザビリティの差になっていたので、非常に頼もしいアップデートですね。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.19.6

    ソース: Release Release v3.19.6 · RooCodeInc/Roo-Code

    [3.19.6] – 2025-06-09

    • Gemini モデルのレイテンシを削減するため、明示的なキャッシュを暗黙的なキャッシュに置き換えました。
    • デフォルトの同時ファイル読み取り制限が 15 ファイルであることを明確にしました (@olearycrew さん、ありがとうございます!)
    • コピーボタンのロジックを修正しました (@samhvw8 さん、ありがとうございます!)
    • 進行中の操作がない場合、履歴プレビューのボタンをフェードアウトします (@sachasayan さん、ありがとうございます!)
    • MCP サーバーの更新を許可し、MCP サーバー管理 UI ビューの状態変更を修正しました (@taylorwilsdon さん、ありがとうございます!)
    • 一部の npm スクリプトで不要な npx の使用を削除しました (@user202729 さん、ありがとうございます!)
    • LiteLLM プロバイダー使用時に末尾のスラッシュエラーが発生するバグを修正しました (@kcwhite さん、ありがとうございます!)

    ———

    個人メモ

    v3.19.5 はリリースを見送られたみたいですね。念の為。

  • 【alphaXiv】DeepSeekMath:オープン言語モデルにおける数学的推論の限界を押し広げる

    元論文: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

    はじめに

    数学的推論は、人工知能にとって最も困難な分野の1つであり続けています。最近の大規模言語モデル(LLM)は、幅広いタスクにわたって目覚ましい能力を発揮していますが、数学におけるパフォーマンスは一般的に人間の専門家に遅れをとっています。最近リリースされたDeepSeekMathモデルは、この分野における大きな進歩を表しており、オープンソースAIモデルが数学的問題解決において達成できることの限界を押し広げています。

    DeepSeekMathは、清華大学および北京大学の研究者との共同研究により、DeepSeek-AIによって開発された特殊な言語モデルです。研究チームは、難解なMATHデータセット(競技レベルの数学問題のコレクション)で50%以上の精度を達成し、数学的推論タスクにおいて以前のオープンソースモデルに匹敵するだけでなく、多くの場合それを上回るモデルを作成しました。

    MATHベンチマークにおける他のモデルと比較したDeepSeekMathのパフォーマンス 図1:MATHベンチマークにおけるDeepSeekMath-7Bと以前のモデルとのパフォーマンス比較。既存のオープンソースモデルからの劇的な改善を示し、GPT-4のようなクローズドソースモデルのパフォーマンスに近づいています。

    AIにおける数学的推論の課題

    数学的推論は、AIシステムに独自の課題をもたらします。パターン認識や統計的相関から恩恵を受けることができる多くの自然言語タスクとは異なり、数学は正確な論理的推論、段階的な演繹、および問題を解決するための抽象的な概念の適用を必要とします。これらの特性は、数学的推論をAIシステムの真の知性と推論能力の特に厳格なテストにします。

    ごく最近まで、この分野はGPT-4やGemini-Ultraのようなクローズドソースモデルによって支配されており、オープンソースの代替案は大幅に遅れをとっていました。この格差は、独自のソリューションに頼ることができない研究者、教育者、および学生にとって、高性能な数学AIシステムへのアクセスを制限していました。

    DeepSeekMathの研究は、いくつかの重要な方法でオープンソースの数学AIを進歩させることによって、このギャップに対処します。

    1. プレトレーニングのための特殊な数学コーパスの作成
    2. 数学的推論を強化するためのコードトレーニングの活用
    3. メモリ効率の高い強化学習アルゴリズムの開発
    4. パフォーマンスを継続的に向上させる反復トレーニングアプローチの実装

    DeepSeekMathコーパス:高品質なトレーニングデータセットの構築

    DeepSeekMathの成功の要は、そのトレーニングデータセットです。研究者らは、Webから抽出された数学コンテンツの特殊なコレクションであるDeepSeekMathコーパスを開発しました。コーパスは、革新的な反復パイプラインを通じて作成されました。

    1. OpenWebMathの数学コンテンツと人間が注釈を付けた例に基づいて、fastText分類器をトレーニングする
    2. この分類器を使用して、Common Crawlデータセットから数学関連のコンテンツを識別する
    3. 数学関連のドメインを発見し、コンテンツ抽出プロセスを改良する
    4. データセットの品質を継続的に向上させるためのフィードバックループの作成

    DeepSeekMathコーパス作成パイプライン 図2:DeepSeekMathコーパス構築のための反復パイプライン。継続的に改善されるfastText分類器を用いて、Common Crawlから数学的コンテンツを抽出する方法を示しています。

    このアプローチの有効性は、既存の数学的データセットに対する包括的なベンチマークで実証されています。図3に示すように、DeepSeekMathコーパスは、GSM8K、MATH、CMATH、BBHを含む複数の数学的ベンチマークにおいて、他のデータセット(MathPile、OpenWebMath、Proof-Pile-2)を一貫して上回っています。

    数学的データセットの比較 図3:異なる数学的データセットで訓練されたモデルのパフォーマンス比較。DeepSeekMathコーパスがさまざまなベンチマークで優れたパフォーマンスを示すことを示しています。

    DeepSeekMathモデルのアーキテクチャ

    DeepSeekMathモデルは、コードと一般的な言語タスクですでに訓練された70億パラメータのモデルであるDeepSeek-Coder-Base-v1.5を基盤として構築されています。研究者たちは、コードに関する事前の訓練が数学的推論に著しい恩恵をもたらすという重要な発見をしました。この発見は、コーディング能力と数学的な問題解決能力との関係について、AIコミュニティで長年議論されてきた問題に対処するものです。

    トレーニングプロセスは、主に次の3つの段階で構成されています。

    1. 事前学習: DeepSeekMathコーパス、コード、および一般的な言語データを使用して、ベースモデルをさらにトレーニングします。

    2. 教師ありファインチューニング(SFT):事前学習済みのモデルを、ソリューション付きの厳選された数学的な問題のデータセットでファインチューニングしました。さまざまな推論形式を取り入れています。

      • 連鎖思考推論(問題を論理的なステップに分解する)
      • プログラム思考推論(コードを使用して数学的な問題を解決する)
      • ツール統合推論(問題解決中に計算ツールを利用する)
    3. 強化学習: SFTモデルは、Group Relative Policy Optimization(GRPO)と呼ばれる新しい強化学習アプローチを使用してさらに最適化されました。

    Group Relative Policy Optimization(GRPO)

    DeepSeekMathの研究における重要な革新は、LLMのファインチューニングのために特別に設計された、メモリ効率の高い強化学習アルゴリズムであるGRPOの開発です。GRPOは、Proximal Policy Optimization(PPO)のような人間からのフィードバックによる従来の強化学習(RLHF)アプローチの主な制限の1つである、価値モデルを維持するための高いメモリ要件に対処します。

    PPOアルゴリズムとGRPOアルゴリズムの比較 図4:従来のPPOと新しいGRPOアプローチの比較。GRPOは、入力ごとに複数の出力を生成し、グループ内の相対的なパフォーマンスに基づいてアドバンテージを計算することにより、価値モデルの必要性を排除します。

    GRPOの仕組みは次のとおりです。

    1. 問題ごとに複数の候補ソリューションを生成する
    2. 報酬モデルを使用してこれらのソリューションを評価する
    3. ソリューションの各グループ内で相対的なアドバンテージを計算する
    4. これらのアドバンテージに基づいてポリシーモデルを更新する

    このアプローチは、個別の価値モデルの必要性を排除し、パフォーマンスを維持または向上させながら、メモリ要件を削減します。研究者たちはまた、オンライン強化学習(報酬モデルが継続的に更新される)がオフラインアプローチよりも優れていることを実証しました。

    # GRPO の簡略化された擬似コード
    def GRPO_update(policy_model, reference_model, reward_model, batch):
        for query in batch:
            # 各クエリに対して複数の出力を生成する
            outputs = [policy_model.generate(query) for _ in range(G)]
    
            # すべての出力に対する報酬を計算する
            rewards = [reward_model(query, output) for output in outputs]
    
            # 参照モデルからの KL ダイバージェンスを計算する
            kl_penalties = [compute_kl(output, reference_model) for output in outputs]
    
            # 調整された報酬を計算する
            adjusted_rewards = [r - beta * kl for r, kl in zip(rewards, kl_penalties)]
    
            # グループ内のアドバンテージを計算する
            mean_reward = sum(adjusted_rewards) / len(adjusted_rewards)
            advantages = [r - mean_reward for r in adjusted_rewards]
    
            # アドバンテージに基づいてポリシーを更新する
            for output, advantage in zip(outputs, advantages):
                policy_model.update(query, output, advantage)

    パフォーマンスベンチマーク

    DeepSeekMath モデルは、包括的な数学ベンチマークセットで評価されました。

    1. 小学校および高校の数学: GSM8K (小学校の数学), MATH (コンテスト数学)
    2. 中国の数学の問題: CMATH
    3. 形式数学: Lean 定理証明
    4. 一般的な推論: Big Bench Hard (BBH)

    DeepSeekMath-Instruct 7B は、次のような目覚ましい成果を上げています。

    • GSM8K (小学校の数学の問題) で 88.6%
    • MATH (コンテストレベルの数学の問題) で 51.7%
    • 中国の数学ベンチマークで最先端のパフォーマンス

    反復的な強化学習プロセスは、図 5 に示すように、トレーニングの反復を通じて継続的な改善を示しています。

    RL 反復によるパフォーマンスの向上 図 5: GSM8K および MATH ベンチマークにおける強化学習の反復によるパフォーマンスの向上。各反復で一貫した改善が見られます。

    特に興味深い発見は、モデルが複数の解を生成し、多数決を行う Majority-at-K (Maj@K) のパフォーマンスの向上によって示されるように、RL がモデルの出力分布のロバスト性を大幅に向上させることです。

    多数決によるパフォーマンスの比較 図 6: 強化学習の前後の多数決 (Maj@K) と pass@K メトリクスのパフォーマンス比較。RL トレーニング後にロバスト性が向上しています。

    主な発見と洞察

    DeepSeekMath の研究により、LLM における数学的推論についていくつかの重要な洞察が得られました。

    1. データの品質は量に勝る: DeepSeekMath コーパスは、いくつかの代替案よりも小さいものの、高品質の数学コンテンツを提供し、パフォーマンスの向上につながります。これは、的を絞った高品質のデータは、単にデータセットのサイズを増やすよりも価値があるという原則を裏付けています。

    2. コードトレーニングは数学に役立つ: 数学の微調整の前にコードで事前トレーニングされたモデルは、数学的推論タスクで著しく優れたパフォーマンスを発揮します。これは、プログラミングと数学の問題解決の間で共有される認知メカニズムを示唆しています。

    3. arXiv は万能薬ではない: 一般的な考えに反して、arXiv 論文でトレーニングしても、この研究で使用されたベンチマークデータセットで目立った改善は見られませんでした。これは、学術論文が数学 AI モデルのトレーニングに理想的であるという仮定に異議を唱えています。

    4. プロセス監視は結果監視よりも優れている: RL の報酬モデルをトレーニングする場合、問題解決プロセス (ソリューションがどのように導き出されるか) を監視する方が、最終的な答えを評価するよりも効果的です。

    5. オンライン RL はオフライン RL よりも優れている: 強化学習中に報酬モデルを継続的に更新すると、固定されたままにするよりも優れたパフォーマンスにつながり、適応学習アプローチの利点が強調されます。

    この研究では、比較的小規模なモデル(70億パラメータ)でも、適切なデータと最適化手法でトレーニングすれば、競争力のある性能を達成できることが示されています。これは、強力な数学的推論能力を実現するために、必ずしも非常に大規模なモデルが必要ではないことを示唆しています。

    影響と応用

    DeepSeekMathは、さまざまな分野で多くの潜在的な応用が可能です。

    1. 教育: 小学校から大学数学まで、さまざまなレベルの学生に、パーソナライズされた個別指導や問題解決の支援を提供します。

    2. 研究: 数学者や科学者が、複雑な数学的概念を探求し、証明や解決策を生成するのを支援します。

    3. 工学と科学: 数学的モデリングに大きく依存する、物理学、工学、経済学などの分野での問題解決をサポートします。

    4. アクセシビリティ: 高価な独自モデルへのアクセスがない個人や組織が、高度な数学支援を利用できるようにします。

    特定の応用以外にも、DeepSeekMathは、より一般的なAI推論能力に向けた重要な一歩となります。数学的推論は、より広範な論理的思考および分析的思考の代用となり、この分野の改善は、AI推論全般に恩恵をもたらす可能性があります。

    結論

    DeepSeekMathは、データ品質、特殊な事前トレーニング、革新的な強化学習技術に注意を払うことで、オープンソースのAIモデルが数学的推論において競争力のある性能を達成できることを示しています。このモデルの開発アプローチは、AI推論能力をより広範に改善するための貴重な洞察を提供します。

    この研究は、数学AIを進歩させるための3つの重要な要素を強調しています。

    1. 高品質でドメイン固有のデータセット
    2. 関連ドメイン(コードや数学など)間の転移学習
    3. 禁止的な計算要件なしにモデルのパフォーマンスを最大化できる効率的な強化学習技術

    オープンソースモデルとして、DeepSeekMathはAIにおける数学的推論の境界を押し広げるだけでなく、これらの機能を世界中の研究者、教育者、開発者が利用できるようにします。これは、高度なAI機能を民主化し、その潜在的な応用を拡大するための重要な一歩となります。

    汎用LLMと並行して、DeepSeekMathのような特殊モデルの継続的な開発は、AIシステムが幅広い知識と特定の分野における深い専門知識を組み合わせることができる未来を示唆しています。これは人間の専門家が行うこととよく似ています。このバランスの取れたアプローチは、最終的に、広範な理解と深い理解の両方を必要とする複雑な現実世界の問題に対処するのに最も効果的であることが証明される可能性があります。

    関連する参考文献

    D. Hendrycks、C. Burns、S. Kadavath、A. Arora、S. Basart、E. Tang、D. Song、およびJ. Steinhardt。MATHデータセットを使用した数学的な問題解決の測定。arXivプレプリントarXiv:2103.03874、2021年。

    • この参考文献では、MATHデータセットを紹介しています。これは、論文全体を通してDeepSeekMathモデルを評価するために使用される主要なベンチマークです。この論文では、成功の重要な尺度としてMATHで高いスコアを達成することを強調しています。

    K. Cobbe、V. Kosaraju、M. Bavarian、M. Chen、H. Jun、L. Kaiser、M. Plappert、J. Tworek、J. Hilton、R. Nakanoら。数学の文章問題を解決するための検証者のトレーニング。arXivプレプリントarXiv:2110.14168、2021年。

    • この参考文献では、GSM8Kデータセットを紹介しています。これは、DeepSeekMathにおける数学的推論を評価するためのもう1つの重要なベンチマークです。この論文では、モデルのパフォーマンスを評価するために、MATHと並行してGSM8Kを使用しています。

    A. Lewkowycz、A. Andreassen、D. Dohan、E. Dyer、H. Michalewski、V. Ramasesh、A. Slone、C. Anil、I. Schlag、T. Gutman-Soloら。言語モデルによる定量的推論問題の解決。AdvancesinNeuralInformationProcessingSystems、35:3843–3857、2022a。

    • この引用は、GoogleのクローズドソースモデルであるMinervaを紹介するもので、数学的推論を専門としています。DeepSeekMathは、Minervaと比較して、競争力のある、あるいはそれ以上の結果を示すことを目指しています。

    D. Guo, Q. Zhu, D. Yang, Z. Xie, K. Dong, W. Zhang, G. Chen, X. Bi, Y. Wu, Y. K. Li, F. Luo, Y. Xiong, and W. Liang. Deepseek-coder: When the large language model meets programming – the rise of code intelligence, 2024.

    • この引用は、DeepSeekMathの初期化元となったモデルであるDeepSeek-Coderに関するものです。この論文では、数学的推論を向上させるために、コードで学習されたモデルから始めることの利点を強調しています。
  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.19.4

    ソース: Release Release v3.19.4 · RooCodeInc/Roo-Code

    [3.19.4] – 2025-06-05

    • Gemini Pro 06-05 モデルのサポートを追加 (@daniel-lxs と @shariqriazz に感謝!)
    • read_file ツールでの PDF、DOCX、IPYNB ファイルの読み取りを修正 (@samhvw8 に感謝!)
    • ChatView コンポーネントでの複数のメモリリークを修正 (@kiwina に感謝!)
    • FileSystemWatcher を破棄することで WorkspaceTracker のリソースリークを修正 (@kiwina に感謝!)
    • マウントされていないコンポーネントの状態更新を防ぐため、RooTips の setTimeout クリーンアップを修正 (@kiwina に感謝!)
    • RooIgnoreController での FileSystemWatcher リークを修正 (@kiwina に感謝!)
    • useCopyToClipboard で setTimeout をクリアすることでクリップボードのメモリリークを修正 (@kiwina に感謝!)
    • ClineProvider インスタンスのクリーンアップを修正 (@xyOz-dev に感謝!)
    • コード理解タスクの主要ツールとして codebase_search を強制する (@hannesrudolph に感謝!)
    • evals の Docker セットアップを改善
    • 移動pnpmワークスペースへの評価、SQLiteからPostgresへの切り替え
    • MCPをリファクタリングし、stdioクライアントトランスポートにgetDefaultEnvironmentを使用するようにしました(@samhvw8さん、ありがとうございます!)
    • 必ずしも部分的なメッセージではない名前の「partial」要素を削除しました(@wkordalskiさん、ありがとうございます!)
    • 機能リクエストテンプレートを改善しました(@elianivaさん、ありがとうございます!)

    ———

    個人メモ

    早速、Gemini Pro 06-05 モデルのサポートが来たので、切り替えています。 Gemini Pro 05-06 モデルでは使えなかった 推論を有効化 のオプションが使えるようになっていますね。 thinking モデルを別にするのではなく、オプションで切り替える方式になったのですね。 現在各社のモデルの数が多く、命名ルールもわかりにくいので、減らす方向の動きは嬉しいですね。

  • 【勝手翻訳】2025年6月に注目すべき O’Reilly Radar Trends

    AIベンダーは5月の大半をAI関連の発表に費やし、ほぼすべてのカテゴリーに進出しました。しかし、注目すべきニュースはこれだけではありません。医師たちは、CRISPRを用いて、これまで治療不可能だった希少疾患を持つ赤ちゃんのDNAを修正しました。この治療が何年も効果があったかどうかは分かりませんが、赤ちゃんは順調に成長しているようです。また、あるスタートアップ企業が究極のニューラルネットワークを販売しています。これは生きた(培養された)ニューロンから作られ、ニューロンを数週間稼働させ続ける生命維持装置も備えています。これが本当に実現するかどうかはまだ分かりませんが、それでもAlphaGoにいつ勝てるようになるのか知りたいものです。

    人工知能

    • Anthropicは、Claude 4 シリーズの最初の2つのモデル 、 SonnetOpus をリリースしました。これらはハイブリッド推論モデルであり、ユーザーが「思考」に費やす時間を制御できます。ツールを並行して使用したり、(ローカルファイルへのアクセスが与えられた場合)一連のリクエストを通じて情報を記憶したりできます。
    • 新しいClaude 4モデルには驚くべき「エージェント的」特性があります。違法行為をしていると思われる場合は、法執行機関に通報 される可能性があります。バックドアなんて必要ありませんよね?私たちの知る限り、この行動はAnthropicのアライメントに関する研究でのみ確認されています。しかし、この行動を排除するようにモデルをトレーニングすれば、独自の法的結果が生じる可能性も考えられます。
    • ChatGPTは4月以降、 動作をカスタマイズするために すべての会話を追跡しています 。Simon Willisonが詳細な議論 をしています。興味深い可能性はありますが、全体としてはこれは機能ではなく問題です。
    • Stitch は、LLMを用いてユーザーインターフェースの設計と生成を支援する実験です。UIのアイデアを自然言語で記述し、ワイヤーフレームを生成・反復処理し、最終的にコードを生成したり、デザインをFigmaに貼り付けたりすることができます。
    • GoogleのDeepMindは 、Geminiで、画像生成によく使われる拡散モデルを 実験 しています。DeepMindによると、拡散モデルはより高速で、ユーザーの制御性を高めることができるとのことです。このモデルは一般公開されていませんが、ウェイティングリストに登録されています。
    • Mistralは、エージェントによるコーディングタスク向けに最適化された新しい言語モデル 「Devstral」 を発表しました 。オープンソースであり、十分な性能を備えたラップトップでも実行できるほど小型(24バイト)です。これは、単なるコード生成と実際のソフトウェア開発との間のギャップを埋めることを目指しています。
    • Meta は Llama スタートアップ プログラム を発表しました 。このプログラムでは、Llama チームからの技術サポートの提供に加え、ホストされた Llama サービスの使用料としてスタートアップに月額最大 6,000 ドルを支給します。
    • LangChainは、AIを搭載したインテリジェントエージェントを構築するためのノーコードプラットフォームであるOpen Agent Platform (OAP)を発表しました。OAPはオープンソースであり、GitHubで公開されています。オンラインで試用することも可能です。
    • Googleは、Gemmaシリーズの新しいマルチモーダルモデルであるGemma 3nを発表しました。Gemma 3nはモバイルデバイス向けに特別に設計されており、レイヤーごとの埋め込みと呼ばれる手法を用いることで、8Bのパラメータを持つモデルで必要なメモリを3GBに削減しています。
    • アラブ首長国連邦は、法律の起草にAIを活用する予定です。ブルース・シュナイアー氏は優れた議論 を投稿しています。AIを用いて法律を制定することは、新しいことでも、必ずしも反人間的なことでもない。AIは、権力の集中ではなく、人々に力を与えるために設計され得る(そして、実際に設計されてきた)のだ。
    • DeepMind はAlphaEvolveを構築しました。これは、進化的アプローチを用いて新しいアルゴリズムを作成し、既存のアルゴリズムを改良する、新しい汎用モデルです。「これはモデルなのか?それともエージェントなのか?」と疑問に思うのは私たちだけではありません。AlphaEvolveは一般公開されていません。
    • しばらくの間、xAIのGrok LLMは、ほぼすべての会話を 白人虐殺に関する会話 に変えていました。Grokが奇妙で望ましくない出力を出すのは今回が初めてではありません。「公平」というより、イーロン・マスクの執着を反映しているように見えます。
    • INTELLECT-2 は、グローバル分散システム を介してトレーニングされた 32B モデルです。グローバル分散システムとは、必要に応じてネットワークに参加したり離脱したりしながら、自発的に時間を提供するコンピューターのネットワークです。PRIME-RL は、非同期分散強化学習のトレーニング フレームワークであり、このプロセスを調整しました。INTELLECT-2 は、コードとデータを含めて オープンソース です。
    • 人間には簡単だがAIには難しいこと:LegoGPTは、テキストプロンプトに基づいてレゴ構造物を設計できます。この構造物は実際のレゴピースで組み立てられ、組み立てると自立します。あとはロボットが組み立てるだけです。
    • Microsoftは、Phi-4モデルの推論バージョンを発表しました。推論バージョン、ミニ推論バージョン、推論プラスバージョンの3種類があります。これらのモデルはいずれも比較的小規模で、推論バージョンは140億個のパラメータ、ミニ推論バージョンはわずか38億個のパラメータです。
    • GoogleはGemini 2.5 Pro Preview(I/O Edition)をリリースしました。コード生成時のパフォーマンスが向上し、YouTube動画からアプリケーションを生成できるビデオ・トゥ・コード機能も搭載されています。
    • OpenAI の命名規則 (またはその欠如) に困惑している場合は、同社が 投稿 しているすべてのモデルの役立つ概要と、各モデルが適切な場合の推奨事項を参照してください。
    • 新しい自動翻訳システムは、複数の話者を追跡し、複数の言語を同時に翻訳できます。1つのモデルが個々の話者の位置と声の特徴を追跡し、別のモデルが翻訳を行います。
    • タイトルがすべてを物語っています。「従業員をAIに置き換えた英国企業の半数以上が、その決定を後悔している」。しかし、彼らは解雇された従業員を再雇用しているのでしょうか?
    • Gemini 2.0 Flash イメージ生成が パブリック プレビューに追加されました
    • Mistralは、チャットベースのAI向けエンタープライズソリューション「Le Chat Enterprise」を 発表 しました。このチャットはオンプレミスで実行でき、企業のドキュメント、データソース、その他のツールに接続できます。
    • セマンティックキャッシング は、AIのパフォーマンス向上とコスト削減を実現する手法です。基本的には、プロンプトとレスポンスをキャッシュし、プロンプトが類似している場合はキャッシュからレスポンスを返します。
    • AnthropicはClaude Integrations を発表しました。IntegrationsはMCPを使用してClaudeを既存のアプリやサービスに接続します。サポートされている統合には、PayPalなどのコンシューマーアプリケーション、Confluenceなどのツール、Cloudflareなどのプロバイダーが含まれます。
    • GoogleはMusic AI Sandboxを アップデート し、新しいモデルと新機能を追加しました。Sunoなどの音楽ジェネレータとは異なり、Music AI Sandboxはミュージシャンが音楽クリップの編集、拡張、生成を行うためのクリエイティブツールとして設計されています。
    • 動画のディープフェイクに心拍音を再現。ディープフェイクを見分ける方法の一つとして、心拍音によって引き起こされる肌の色の微妙な変化を捉えるという手法がありました。しかし、ディープフェイクは脈拍を模倣することで、この手法を回避できるようになりました。
    • Googleは、イルカの発声を学習させた言語モデル DolphinGemma を開発しました。このモデルは一連の音の中から次に何が起こるかを予測できますが、イルカが何を言っているのかはまだ分かりません。このモデルは学習に役立つでしょう。
    • Memex は、Claude Code スタイルを踏襲したエージェンティックコーディング向けに設計された新しいアプリケーションです。Web ベースのツールとは異なり、Memex はローカルで実行されます。
    • SHADES データセットは、モデル開発者が有害なステレオタイプやその他の差別的行動を発見し、排除するのに役立つように設計されています。SHADES は多言語対応で、モデルがステレオタイプにどのように反応するかを観察することで構築されました。このデータセットは Hugging Face から入手できます。

    プログラミング

    • 開発チームの生産性に『AI』コーディングアシスタントよりも大きな影響を与える5つの退屈なこと」:タイトルがすべてを物語っている、もう一つの例です。一読の価値ありです。
    • Microsoftは、Windows Subsystem for Linux (WSL)を オープンソース化 しました。
    • 2つの新しいテキストエディターが登場しました。Windowsに独自のコマンドラインテキストエディターが登場。これはオープンソースで、Rustで書かれています。 Zed は新しい「エージェント型」エディタです。エージェント型エディタと IDE の違いは明確ではありません。
    • Jules は、Google がエージェント対応コーディング分野に参入したツールです。Gemini を使用し、「Jules がやりたくないコーディング作業をやってくれる」と謳っています。もちろん、GitHub との統合、クラウド VM でのコードテスト、テストの作成と実行、そしてその根拠の表示も行えます。
    • Terraform には MCP サーバー があります。
    • ハードウェア記述言語は難解で分かりにくく、現在使用されている高水準言語とはほとんど似ていません。Spade は、最新の高水準プログラミング言語を念頭に設計された新しい HDL で、Rust の影響を強く受けています。
    • OpenAIは、プログラミングに特化したトレーニングを受けたo3の新バージョンをベースにしたコーディングエージェント、Codexを リリース しました。Gitリポジトリからコードベースをプルし、新しいコードを書き、プルリクエストを生成し、サンドボックスを使用してテストを行うことができます。Proサブスクリプションメンバーのみが利用できます。
    • LLMはコード生成時に、過剰なコードを書き、冗長で過剰なエンジニアリングを優先する傾向があります。Fred Benenson氏がこの問題について 議論 し、いくつかの解決策を提案しています。
    • Nix は、サプライチェーンのセキュリティを大幅に向上させることができる依存関係管理ツールです。その目標は、ソフトウェアのビルドに使用されたソースの整合性を証明し、ビルドで使用されたすべてのソースとツールチェーンを追跡し、各リリースで使用されたソースをエクスポートしてサードパーティの監査を容易にすることです。
    • OpenAIは、ChatGPTのディープリサーチ機能でGitHub上のコードを調査できるようにするコネクタを 発表 しました。ディープリサーチはレガシーコードベースでどのように機能するのでしょうか?今後の展開に注目です。
    • Redisがオープンソースライセンスに 復帰 しました!Redis v8は AGPL v3 ライセンスの対象です。
    • JavaScript で 明示的なリソース管理 を行う提案があります。usingawait 宣言により、リソースがスコープ外になった際に確実に破棄されます。
    • DeepWiki は、「GitHub リポジトリを網羅した無料百科事典」です。リポジトリの概要は (どうやら) AI によって生成されたものと思われるので、リポジトリの使い方に関するチャットボットも利用できます。
    • 「コード臭」カタログ は、素晴らしく便利なツールです。ウェブサイトの見た目は少しぎこちないですが、検索機能があり、ソフトウェアのアンチパターンの詳細な説明、例、解決策が掲載されています。
    • ターミナルコマンドを覚えていない方のために:Zevは、AI(OpenAI、Google Gemini、Azure OpenAI、またはOllama)を使用して、実行したい操作を口頭で説明し、それをコマンドに変換するコマンドラインツールです。コマンドはコピー/ペーストするか、メニューから実行できます。
    • Dockerは、大規模な言語モデルをローカルで実行するための別の方法であるDocker Model Runnerを導入しました。モデルの実行はコンテナの実行と同じくらい簡単です。

    Web

    • CSS Minecraft は、ブラウザで動作する Minecraft のクローンで、HTML と CSS のみで実装されています。JavaScript は一切使用されていません。仕組み についてはこちらをご覧ください。
    • Microsoft は、ウェブサイトに MCP サポートを簡単に統合できるプロジェクトである NLWeb を発表しました。これにより、あらゆるウェブサイトが AI アプリになることができます。
    • 10Web は、eコマースサイトを構築するためのノーコード生成型 AI アプリケーションを開発しました。特徴的なのは、WordPressで実行可能なコードを生成し、その機能をプロンプトにエクスポートすることで、顧客が新しいサイトを「ホワイトラベル化」できる点です。
    • もしブラウザにエージェントAIが完全に統合されていたらどうでしょう?アドオンではなく、最初からAIを中心に構築されていたらどうでしょう?Strawberry のようなブラウザになるかもしれません。
    • Chromeの今後の機能では、デバイス上のAIを使用してテクニカルサポート詐欺を検出 します。
    • Web開発者を対象とした 調査 によると、ほとんどの開発者がAIを活用しているものの、AIによって生成されるコードは全体の25%未満です。大多数(76%)が、AIによって生成されたコードの半分以上は、使用前にリファクタリングする必要があると回答しています。

    セキュリティ

    • セキュアメッセージングアプリケーションSignalに、MicrosoftのRecallによるアプリのスクリーンショット撮影を阻止する機能が 追加 されました。これは、Windowsに組み込まれたDRMを利用してアプリごとにスクリーンショットを無効化する興味深いハックです。
    • 良性のボットやエージェントと悪意のあるボットやエージェントをどのように区別するのでしょうか?Cloudflareは暗号化技術、具体的には HTTPメッセージ署名 標準の使用を提案しています。OpenAIはすでにこれを行っています。
    • セキュリティにおける重要なトレンドとして、正規のセキュリティツールを攻撃の武器として使用する ことが挙げられます。SSH-SnakeとVShellは、レッドチームツールが武器として使用される例としてよく挙げられます。 (VShellの開発者は削除しましたが、依然として流通しています。)
    • 悪意のある Chrome拡張機能 がローカルで実行されているMCPサーバーと通信し、そこからシステムを乗っ取る可能性があります。
    • ある研究グループが、マルウェアの機能を自身に利用 というマルウェアに対する防御策を開発しました。これは、ボットネットが構築される前に排除するための有望な手法です。

    量子コンピューティング

    生物学

    • 極めて稀な遺伝性疾患を持つ赤ちゃんの治療 に、遺伝子編集が用いられました 。CRISPRを用いて、赤ちゃんのDNAの一文字を修正する薬が開発されました。これは究極の個別化医療であり、この薬は二度と使用されることはないかもしれません。
    • Cortical Cloudは 、プログラム可能な生物学的コンピュータであると主張しています。実験室で培養されたニューロン、デジタルインターフェース、そして生命維持装置が箱の中に詰まっています。いつチェスができるようになるのでしょうか?

    仮想現実と拡張現実

    • Googleグラスが復活? GoogleはWarby Parkerとの提携を発表し、AIを搭載したAndroid XR AR/VR対応グラスを開発します。このAIは(Android)スマートフォン上で動作します。

    ——–

    個人メモ

    再注目は、Claude Sonnet 4 ですね。プログラミング支援のAI利用のAPIは順次検証しながら切り替えていっています。 今回のレポートには無かったですが、日本では Claude Sonnet 4 と同時期にリリースされた、Claude Code + Max プランでの「(ほぼ)定額CLI型コーディング支援」に注目が集まっているので、こちらもキャッチアップしておきたいですね。

  • 【勝手翻訳】Inoreaderを究極の「後で読む」アプリとして使おう

    インターネットは貴重な情報の宝庫ですが、正直に言うと、時に圧倒されてしまうこともあります。企業のウェブサイト、ブログ、ニュースレター、ソーシャルメディアの投稿、ポッドキャスト、動画、長文記事など、あらゆる情報をチェックするのは、まるでフルタイムの仕事のように感じるかもしれません。そんな時に便利なのが 、後で読むツール です!

    後で読むアプリの本質は、個人的なコンテンツ保管庫、つまり時間をかける価値のある記事を保存し、洞察を振り返り、知識ベースを構築するためのキュレーションされたスペースです。しかし、その有用性にもかかわらず、過小評価されがちです。

    後で読む優れたエクスペリエンスに何が期待できるかを詳しく見ていきましょう。

    • 利便性: コンテンツを簡単に保存して後で利用し、いつでも好きなときに利用できます。
    • 整理: タグとメモを使用して、必要なときに重要な部分をすばやく再発見します。
    • 邪魔されずに読書: すっきりしたインターフェースで、集中しているときに保存した記事を読むことができます。
    • オフライン アクセス: 飛行機や地下鉄など、インターネットがなくてもどこからでも学習を続けることができます (通常は有料機能)。

    過去1ヶ月間のベスト記事がすべて揃っていて、旅行中にいつでも読める状態を想像してみてください。あるいは、業界トレンドの完全なアーカイブが、検索と注釈付きで完全に保存されている状態を想像してみてください。あるいは、Web上で自社ブランドが言及されているすべての箇所がタグ付けされ、参照用にファイル化されている状態を想像してみてください。適切な設定さえすれば、これは夢ではなく、日々のワークフローの一部になります。そして、Inoreaderはそれをすべて可能にします

    Inoreader が驚くほど強力な「後で読む」アプリである理由 (その他)

    Inoreader はRSSリーダーとして知られている方も多いと思いますが、実は豊富な機能を備えた「後で読む」ソリューションとしても機能します。コンテンツを探すか保存するか、もう迷う必要はありません。Inoreader を使えば、その両方をシームレスに、1か所で行うことができます。

    どこからでも何でも保存

    もう一度読みたい記事、保存しておきたいニュースレター、LinkedInの素敵な投稿など、すべて保存して後で読みましょう!Inoreaderのブラウザ拡張機能、モバイル共有、またはメールからInoreaderへ送信する機能を使えば、Web上のコンテンツをクリップできます。さらに、お手持ちのPDFやドキュメントをアップロードすれば、Inoreaderがそれらを読みやすいきれいな記事に変換してくれます。

    どこからでも何でも保存

    気を散らすことなく読む

    広告、ポップアップ、雑然としたレイアウトは一切なし。Inoreaderは、あらゆるデバイスで一貫した読書体験を提供します。保存した記事、PDF、ソーシャルメディアの投稿など、どんなコンテンツを読むときでも、インターフェースは常にすっきりと整理されているので、コンテンツが際立ち、常に一歩先を行くことができます。

    気を散らすことなく読む

    ハイライト、注釈、検索、抽出

    Inoreaderで、読書をより意識的に。重要なポイントをハイライトしたり、メモを残したり、記事に注釈を付けたりできます。さらに、InoreaderはAIツールもサポートしており、要約を抽出したり、読んだ内容に関する質問に答えたりできます。さらに、全文検索機能を使えば、考えやアイデアを見失うことはもうありません!

    ハイライト、注釈、検索、抽出
Hairaito, chūshaku, kensaku, chūshutsu

    コンテンツを自分好みに整理

    タグと「後で読む」キューを使って、コンテンツコレクションを整理しましょう。保存したアイテムは、元のコンテンツがウェブから削除されても引き続きアクセスできます。ルールを使えば、コンテンツがアカウントに届いた瞬間に自動的にタグ付け、共有、転送できます。すべてのコンテンツは検索可能で、簡単に取り出すことができ、必要な場所にすぐにアクセスできます。

    コンテンツを自分好みに整理

    デバイス間の同期とオフラインモード

    すべてのコンテンツはウェブとモバイル間で同期されます。ノートパソコンで読書リストを作成して、外出先で読み進めることができます。Wi-Fiのない場所に行く予定でも、Inoreaderのオフラインモードを使えば、どこにいても読書を続けることができます。

    デバイス間の同期とオフラインモード

    RSS + 後で読む = 両方の長所を兼ね備えた

    後で読むサービスの多くは、コンテンツを探して保存するという手間をユーザーに求めています。しかし、Inoreaderなら、コンテンツがあなたのもとへやって来ます。お気に入りのブログやクリエイター、ニュースレターやパブリッシャー、YouTubeチャンネルなどをフォローしましょう。そして、フィードからワンクリックで最適なコンテンツを直接保存できます。最小限の労力で、よりスマートかつ迅速にライブラリを構築できる方法です。

    TL;DR: 後で読むツールとして Inoreader を使用する理由は何ですか?

    Inoreaderは、価値あるコンテンツの収集と整理に最適で、常に最新情報を入手したいヘビーユーザー、研究者、そしてプロフェッショナルにとって理想的なパートナーです。邪魔にならないクロスデバイスインターフェースと、コンテンツ検索機能と「後で読む」機能がシームレスに統合されたInoreaderは、最適なコンテンツを見つけるだけでなく、いつでもどこでもコンテンツを最大限に活用するのに役立ちます。

    ——–

    個人メモ

    Pocketの終了アナウンス後、自分は Inoreader を RSS 購読アプリとしてだけでなく、「後で読む」アプリとしても利用しています。但し、モバイルでの「後で読む」体験 (後で読み終わったよの処理) があまり良くなく、Web ブラウザでのみで使っています。

    この使い方で、公式からの情報以外で、気づいた便利ポイントを下記にメモしておきます。もうちょっと嬉しかったポイントはあった気がしますが、すぐに思い出せる範囲での共有とさせてください。

    • はてなブックマークに投稿できる
    • 「全コンテンツを読み込む」機能が便利
      • はてなブックマーク、Content more「続きはこちら」的なものを読み込んでブラウザで読める
    • 「全コンテンツを読み込む」の後に、「記事を翻訳」機能が便利

    あと、Webブラウザのみで、モバイルを捨てた背景も機会や余裕があれば、記事にしたいと思っています。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.19.3

    ソース: Release Release v3.19.3 · RooCodeInc/Roo-Code

    [3.19.3] – 2025-06-02

    • SSE MCP 呼び出しを修正 – transport.start オーバーライドが stdio トランスポートにのみ適用されるようにすることで、McpHub.ts の SSE 接続の問題を修正しました。これにより、SSE およびストリーミング可能な http トランスポートが元の開始メソッドを保持できるようになりました (@taylorwilsdon に感謝!)

    ———

    個人メモ

    Claude Code with Claude Max プランが、API従量課金なしで人気になっているようですね。余裕があれば少し浮気してみたいですね。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.19.2

    ソース: Release Release v3.19.2 · RooCodeInc/Roo-Code

    [3.19.2] – 2025-06-01

    • Streamable HTTP Transport MCP サーバーのサポートを追加 (@taylorwilsdon さん、ありがとうございます!)
    • LiteLLM プロバイダーの統計情報とコスト計算にキャッシュされた読み取り/書き込み機能を追加 (@mollux さん、ありがとうございます!)
    • ユーザー編集時にファイル全体がコンテキストにダンプされないようにしました (@KJ7LNW さん、ありがとうございます!)
    • Markdown でのディレクトリリンクの処理を修正しました (@KJ7LNW さん、ありがとうございます!)
    • apply_diff REPLACE で start_line/end_line が使用されないようにしました (@KJ7LNW さん、ありがとうございます!)
    • 履歴項目の UI を TaskItem および TaskItemHeader と統合しました (@KJ7LNW さん、ありがとうございます!)
    • OpenAI 互換 API キーのラベルを修正しました
    • Virtuoso フッターの再レンダリングの問題を修正しました (@kiwina さん、ありがとうございます!)
    • ChatRowContent のレイアウトとスタイルを最適化しました (@zhangtony239 さん、ありがとうございます!)
    • apply diff でメモリを解放しました (@xyOz-dev さん、ありがとうございます!)
    • セキュリティ強化のため、Node.js を v20.19.2 にアップグレードしました(@PeterDaveHello さん、ありがとうございます!)
    • タイプミスを修正しました (@noritaka1166 さん、ありがとうございます!)

    個人メモ

    自分はこのバグフィックスのスピードについていけていないですが、いつかコントリビュートしてみたいですね。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.19.1

    ソース: Release Release v3.19.1 · RooCodeInc/Roo-Code

    [3.19.1] – 2025-05-30

    • 複数のファイルを一度に読み込める実験的な機能 (@samhvw8 さん、ありがとうございます!)
    • SSE MCP サーバーにヘッダーを正しく渡すための修正
    • Amazon Bedrock 使用時にカスタム VPC エンドポイントのサポートを追加 (@kcwhite さん、ありがとうございます!)
    • Amazon Bedrock でのコンテキスト圧縮に関するバグを修正
    • ExecaTerminalProcess の UTF-8 エンコードを修正 (@mr-ryan-james さん、ありがとうございます!)
    • サイドバー名の設定に関するバグ修正 (@chrarnoldus さん、ありがとうございます!)
    • 機能リクエストテンプレートの CONTRIBUTING.md へのリンクを修正 (@cannuri さん、ありがとうございます!)
    • Unbound にタスクメタデータを追加し、キャッシュロジックを改善 (@pugazhendhi-m さん、ありがとうございます!)

    個人メモ

    Bedrockのサポートやバグ修正が早いですね。自分はBedrockを通してRoo Codeを使ってないのですが、Enterpriseではよく使われているんですかね。ちょっと調べてみようかなと。