Alti blog

(実験サイトでのブログなのでサイトが落ちてたらごめんなさい)

カテゴリー: 勝手日本語翻訳

注目しているものの英語を勝手に日本語に翻訳したもの
  • 【勝手翻訳+alphaXivテスト】vSIM によるセルラーネットワークにおけるデバイスと ID の分離

    ソース: [2505.15827] Decoupling the Device and Identity in Cellular Networks with vSIM Explore | alphaXiv にブログ出力する機能があったので、ブログ化して、日本語化してみます。

    はじめに

    従来のセルラーネットワークでは、SIM カードを通じて加入者 ID と物理ハードウェアが密接に結合されています。本稿では、Trusted Execution Environment (TEE) 内で SIM 機能を仮想化することにより、セルラー ID をハードウェアデバイスから分離するソフトウェアベースのソリューションである vSIM を紹介します。この研究は、セルラーネットワークにおけるプライバシーに関する懸念の高まりと、より柔軟な ID 管理を必要とする新たなユースケースに対応するものです。

    vSIM アーキテクチャの概要 図 1: ユーザー機器上の Trusted Execution Environment、リモート構成証明による安全なプロビジョニング、および 5G インフラストラクチャとの統合を示す vSIM アーキテクチャ

    vSIM アプローチは、物理 SIM カードから組み込み SIM (eSIM) および統合 SIM (iSIM) へと進化してきた現在の SIM 技術の進化とは大きく異なり、ハードウェアに結び付けられた ID を維持しています。vSIM は、セキュアなエンクレーブ内のソフトウェアで SIM 機能を完全に実装することにより、モバイルネットワーク事業者が期待するセキュリティを維持しながら、ID ローテーション、一時的な認証情報、およびデバイス間のシームレスな転送を可能にします。

    背景と現在の制限事項

    現在の SIM 技術は、vSIM が対処しようとしているいくつかの根本的な制限に直面しています。従来の SIM カード、eSIM、および iSIM はすべて、加入者 ID と特定のハードウェア間の永続的な関連性を維持しており、プライバシーの脆弱性を生み出し、新たなアプリケーションの柔軟性を制限しています。

    現在の SIM 技術のハードウェアに束縛された性質は、いくつかの課題を生み出します。

    プライバシーに関する懸念: 静的なハードウェアに束縛された ID により、さまざまなネットワークインタラクションにわたるユーザーの永続的な追跡とプロファイリングが可能になります。国際モバイル加入者識別情報 (IMSI) およびその他のハードウェアに結び付けられた識別子は一定のままであり、プライバシーを保護する ID 管理の実装を困難にしています。

    柔軟性の制限: 従来の SIM は、特定のサービスの一時的な認証情報、クラウドベースの AI アシスタントとの統合、または仮想デバイスへの電話番号のシームレスな転送など、動的な ID 管理シナリオを簡単にサポートできません。

    新たなユースケースの制限: 最新のアプリケーションでは、特定のハードウェアデバイスとは独立して動作するクラウドサービスおよび仮想アシスタントのために、セルラー接続がますます必要になっています。現在の SIM 技術は、これらのシナリオを適切にサポートできません。

    この研究は、TEE ベースのセキュリティソリューションおよびリモート構成証明プロトコルに関する既存の研究に基づいています。著者は、仮想化された ID がハードウェアベースのソリューションと同じセキュリティ特性を維持することを保証するために、vSIM とモバイルネットワーク事業者間の信頼を確立するために、Enhanced Privacy ID (EPID) を活用しています。

    vSIM アーキテクチャは、安全なソフトウェアベースの SIM 機能を提供するために連携するいくつかの主要なコンポーネントで構成されています。

    Trusted Execution Environment: vSIM のコアは TEE 内で動作し、特に RISC-V プロセッサ用の Keystone オープンソースフレームワークを使用して実装されています。このセキュアなエンクレーブは、通常のオペレーティングシステムからの分離を提供し、機密性の高い暗号化操作を保護します。

    リモートアテステーションと信頼確立: 本システムは、EPIDベースのリモートアテステーションを使用して、vSIMとモバイルネットワーク事業者のプロファイルマネージャー間の信頼を確立します。このプロセスでは、加入者クレデンシャルをプロビジョニングする前に、vSIMソフトウェアの整合性と真正性を検証します。

    セキュアプロビジョニングプロトコル: カスタムプロトコルにより、ネットワーク事業者からvSIMへの加入者プロファイルの安全な転送が可能になります。プロトコルには以下が含まれます。

    1. デバイスからの初期アテステーション要求
    2. EPIDを使用したチャレンジレスポンス認証
    3. 安全な通信チャネルの確立
    4. 加入者プロファイルデータの暗号化された転送
    5. TEE内での安全なストレージ

    5Gインフラストラクチャとの統合: vSIMは既存の5G認証メカニズムと統合されており、標準的なセルラーネットワークプロトコルとの互換性を維持しながら、ソフトウェアベースのID管理の柔軟性を提供します。

    このアーキテクチャにより、ホストオペレーティングシステムが侵害された場合でも、機密性の高い暗号鍵と加入者データがTEE内で保護されることが保証されます。この設計は、モバイルネットワーク事業者が期待するセキュリティ特性を維持しながら、ハードウェアに縛られたソリューションでは不可能な新しい機能を実現します。

    実装の詳細

    著者らは、いくつかの主要なテクノロジーとフレームワークを使用してvSIMを実装しました。

    Keystone TEEフレームワーク: この実装では、RISC-Vプロセッサ向けに設計されたオープンソースのTEEフレームワークであるKeystoneを使用しています。Keystoneは、ホストシステムへの潜在的な攻撃からvSIMの操作を保護するために必要な安全なエンクレーブ機能を提供します。

    暗号ライブラリ: チームは、以下を含む不可欠な暗号ライブラリをエンクレーブランタイムに移植しました。

    • 一般的な暗号操作のためのLibsodium
    • 効率的な対称暗号化のためのTiny AES
    • TEE環境向けに最適化されたカスタム実装

    srsRAN統合: 既存のセルラーインフラストラクチャとの互換性を示すために、研究者らはvSIMをsrsRAN(5Gネットワーク向けの一般的なソフトウェア定義無線プラットフォーム)と統合しました。この統合により、vSIMが標準的な5Gプロトコルおよび手順で動作できることが検証されます。

    エミュレーション環境: 初期実装はQEMUエミュレーション環境で実行され、特殊なハードウェアを必要とせずに開発とテストが可能になります。このアプローチは、vSIMコンセプトの迅速なプロトタイピングと評価を促進します。

    実装プロセスでは、制約のあるTEE環境で動作するように、既存の暗号ライブラリを大幅に適合させる必要がありました。著者らは、セルラー認証に必要なセキュリティ特性を維持しながら、メモリ使用量と実行効率を最適化する必要がありました。

    パフォーマンス評価

    この研究には、vSIMと従来のUSIM実装を比較した予備的なパフォーマンス測定が含まれています。評価は、ネットワークトラフィックパターンと計算オーバーヘッドに焦点を当てています。

    パフォーマンス比較 図2:従来のUSIM(左)とvSIM(右)の実装間のネットワークトラフィック比較。最小限のオーバーヘッドで同様のトラフィックパターンを示しています。

    トラフィック分析: パフォーマンスグラフは、vSIMが従来のUSIM実装と比較して最小限のオーバーヘッドしか導入しないことを示しています。インバウンドとアウトバウンドの両方のトラフィックパターンは、2つのアプローチ間でほぼ同一であり、ソフトウェアベースの実装がネットワークパフォーマンスに大きな影響を与えないことを示しています。

    計算オーバーヘッド: この論文では詳細な計算パフォーマンス指標は提供されていませんが、srsRANとの統合が成功したことは、vSIMが5G認証手順に必要なタイミング制約内で動作できることを示唆しています。

    メモリ使用量: TEEの実装では、制約のある環境のため、注意深いメモリ管理が必要です。著者らは、必要な暗号ライブラリを移植することに成功し、許容可能なメモリフットプリントを維持しました。

    予備的な結果は有望ですが、著者らは、特に実際の展開やマルチプロファイルシナリオにおいて、より包括的なパフォーマンス評価が必要であることを認めています。

    意義と将来への影響

    vSIMの研究は、セルラーネットワークとモバイルセキュリティの将来にとっていくつかの重要な意味を持ちます。

    プライバシーの強化: vSIMは、IDのローテーションとハードウェアからの分離を可能にすることで、セルラーネットワークにおけるユーザーのプライバシーを大幅に向上させることができます。ユーザーは、セルラーIDを定期的に変更したり、特定のサービスに対して一時的なIDを使用したりして、第三者がセルラーの使用パターンを追跡してプロファイリングする能力を低下させる可能性があります。

    柔軟なID管理: ソフトウェアベースのアプローチにより、ハードウェアに縛られたIDでは困難または不可能な新しいユースケースが可能になります。これには、電話番号の仮想デバイスへのシームレスな転送、クラウドベースのサービスとの統合、特定のアプリケーションまたは期間の一時的な資格情報などが含まれます。

    IoTとエッジコンピューティング: vSIMは、数千のデバイスの物理SIMカードを管理することが非現実的になる大規模なIoT環境でのID管理を簡素化できます。ソフトウェアベースのプロビジョニングと管理は、運用上のオーバーヘッドを大幅に削減できます。

    新しいビジネスモデル: モバイルネットワーク事業者は、柔軟でソフトウェア管理されたIDに基づいて、新しいサブスクリプションモデルを開発できます。これには、従量課金モデル、一時的なアクセス資格情報、またはサービス固有のIDが含まれる場合があります。

    セキュリティの進化: ソフトウェアベースのセキュリティソリューションを使用すると、ハードウェアベースのアプローチと比較して、より動的なアップデートと脆弱性パッチが可能になります。これにより、セルラーネットワーク全体のセキュリティ体制を長期にわたって改善できます。

    著者らは、FPGAベースのIoTデバイスにvSIMを実装し、マルチプロファイルサポートを開発し、より包括的なパフォーマンス評価を実施することで、研究を継続する予定です。これらの取り組みは、実際の展開におけるvSIMの実用的な実現可能性を検証し、残りの技術的な課題を特定するのに役立ちます。

    この研究は、より柔軟でプライバシーを保護するセルラーID管理に向けた重要な一歩であり、将来的にはユーザー、デバイス、およびセルラーネットワークの関係について私たちがどのように考えるかを再構築する可能性があります。

    関連する引用

    E. Brickell and J. Li, “Enhanced privacy id: A direct anonymous attestation scheme with enhanced revocation capabilities,”IEEE Transactions on Dependable and Secure Computing, vol. 9, no. 3, pp. 345–360, 2012.

    • この論文では、匿名認証と安全なプロビジョニングのためにvSIMで使用されるコア暗号プリミティブであるEnhanced Privacy ID(EPID)スキームを紹介しています。vSIMはEPIDを利用して、デバイスのIDを明らかにすることなくその信頼性を証明し、ネットワークプロバイダーとの安全な通信を可能にします。

    D. Lee, D. Kohlbrenner, S. Shinde, K. Asanovi ´c, and D. Song, “Keystone: an open framework for architecting trusted execution environments,” inProceedings of the Fifteenth European Conference on Computer Systems, ser. EuroSys ’20. New York, NY, USA: Association for Computing Machinery, 2020. [Online]. Available: https://doi.org/10.1145/3342195.3387532

    • Keystoneは、vSIMを実装および評価するために使用されるオープンソースTEEフレームワークです。この論文では、Keystoneのアーキテクチャと、vSIMのような信頼できるアプリケーションを実行するための安全な隔離された環境の作成をどのように可能にするかについて説明します。

    “3GPP TS 33.501 version 16.3.0 Release 16,” 3rd Generation Partnership Project (3GPP), Tech. Rep., 2020, accessed: 2025-01-01.

    • この3GPP標準仕様は、認証とキー管理を含む5Gネットワークのセキュリティアーキテクチャと手順を定義しています。vSIMの実装は、既存の5Gインフラストラクチャとの互換性と相互運用性を確保するために、この標準に準拠しています。
  • 【勝手翻訳+α】vSIMによるセルラーネットワークにおけるデバイスとIDの分離

    ソース: [2505.15827] Decoupling the Device and Identity in Cellular Networks with vSIM

    導入

    セルラーネットワークは今や基本的なインフラであり、日常のコミュニケーションや商取引を担うスマートフォンだけでなく、ラストマイル接続を通じてIoTやエッジコンピューティングの拡張も可能にしています。このインフラの中核を成すのがSIMカードです。SIMカードは、加入者の暗号鍵とプロファイル情報を通じて、ネットワーク認証と加入者識別に不可欠な機能を提供します。近年、SIMカードは、独立したプラグ型カードから、基板に統合された(つまり、同じ電気インターフェースで基板に半田付けされた)カード(eSIM)、そしてシステムオンチップに統合されたカード(iSIM)へと進化を遂げてきました。しかし、SIMの進化を通して、根本的な制約が依然として存在します。それは、加入者IDがハードウェアに結びついているということです。eSIMとiSIMテクノロジーは、リモートプロビジョニングを可能にするにもかかわらず、依然としてデジタルIDを特定のハードウェア要素に結び付けています。そのため、電話番号をクラウドAIサービスに移行したり、セルラー接続を維持しながら異なるデバイス間で認証情報を転送したりするといった新たなユースケースへの対応が複雑になります。さらに、eSIMとiSIMは複数のプロファイル(単一デバイス上で複数の電話番号またはキャリアプロファイル)をサポートしますが、すべてのプロファイルは同じハードウェアIDにリンクされています。アイデンティティのローテーションや分離(用途に応じて異なる番号を持つなど)によってプライバシーを維持しようとするユーザーは、セキュリティアーキテクチャのハードウェア依存の性質によって制約を受けます。本稿では、アイデンティティをデバイスから分離することで、様々なSIM設計と比較してプライバシーと柔軟性を向上させることを目指します。この分離を断つことで、リアルアイデンティティのローテーション、バーチャルアシスタントとの統合、安定したセルラー接続を維持しながらのバックアップ用携帯電話の一時的な使用といったシナリオを可能にします。

    個人メモ

    論文購読の中で、eSIM は知っていて、自分のスマートフォンでも使っているのですが、iSIM を知らなかったので、もう少し知っておくために調べました。

    iSIM(Integrated SIM)とは

    iSIM(Integrated SIM) は、従来の物理SIMカードやeSIM(組み込み型SIM)に続く、次世代のSIM技術です。iSIMはSIMの機能をデバイスのSoC(System on Chip:CPUやメモリ、通信機能などを1つにまとめた半導体チップ)内に直接組み込む方式で、物理的なSIMカードやSIMスロットが不要となります。

    主な特徴

    • SIM機能がSoC(メインチップ)内に統合されるため、デバイスの小型化・省スペース化が容易になる。
    • eSIMのようにリモートプロビジョニング(遠隔での契約情報書き換え)が可能。
    • SIMカードの物理的な抜き差しや交換が不要で、製造・物流・管理コストの削減につながる。
    • IoT機器、ウェアラブルデバイス、産業機器、スマートメーターなど幅広い分野で活用が進む。

    eSIMとの違い

    項目 eSIM iSIM
    実装場所 専用のチップ(SE)として基板に実装 SoC(メインチップ)内に統合
    物理的な部品 必要(はんだ付けなど) 不要(部品点数・スペース削減)
    セキュリティ 高い SoC内のセキュア領域でさらに高い
    小型化メリット あり より高い
    商流・調達 通信事業者からeSIMを調達 モジュールメーカーから一括調達が可能

    メリット

    • デバイスのさらなる小型化・軽量化
    • 製造コスト・物流コストの削減
    • IoTやウェアラブルなど新しい用途への展開
    • セキュリティの向上(SoC内のセキュア領域に認証情報を格納)

    今後の展望

    iSIMはGSMA(世界的な通信業界団体)で標準化が進められており、QualcommやARMなど大手半導体メーカーも開発を推進しています。今後、スマートフォンやIoT機器分野での普及が期待されています。

    まとめ

    iSIMは、通信機能を持つあらゆるデバイスの小型化・高機能化・コスト削減を実現する次世代SIM技術です。IoTやウェアラブル分野を中心に、今後急速に普及が進むと見込まれています。

    個人メモ

    iSIM は eSIM より更に小型化がインパクトがありそうですね。φ(・

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.18.3

    ソース: Release Release v3.18.3 · RooCodeInc/Roo-Code

    [3.18.3] – 2025-05-24

    • OpenRouter で Claude 4 および Gemini 2.5 Flash の推論サポートを追加し、o1-pro の修正も実施しました。
    • 実験的なコードベースインデックスとセマンティック検索機能を追加しました (@daniel-lxs さん、ありがとうございます!)
    • 以前はデフォルトで Sonnet 3.7 に設定されていたプロバイダーについては、Sonnet 4 に変更しました。
    • Gemini 2.5 Flash Preview のプロンプトキャッシュを有効にしました (@shariqriazz さん、ありがとうございます!)
    • 特定の OpenRouter プロバイダーを選択する際にモデル設定を保持します。
    • LiteLLM モデルリストを更新する機能を追加しました。
    • 適切なファイル編集ツールの選択をガイドするためにツールの説明を改善しました。
    • npx および bunx で実行する際に MCP サーバーが設定をロードする際に発生するエラーを修正しました (@devxpain さん、ありがとうございます!)
    • pnpm のブートストラップを改善し、コンパイルスクリプトを追加しました (@KJ7LNW さん、ありがとうございます!)
    • オブジェクトの割り当てを簡素化し、startsWith を使用できるようにしました (@noritaka1166 さん、ありがとうございます!)
    • コンテキストトラッカーの既読マークロジックを修正しました (@ @samhvw8!)
    • vscodelm から非推奨の claude-3.7-sonnet モデルを削除しました(@shariqriazz さん、ありがとうございます!)

    個人メモ

    X/旧Twitter のプロフィールを見ていただいたのか、このブログ投稿の影響なのか、公式の Roo Code(@roo_code)さん / X にフォロー頂きました。Roo Code関連の投稿を増やしていこうと思います。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.18.2

    Release Release v3.18.2 · RooCodeInc/Roo-Code

    [3.18.2] – 2025-05-23

    • ファイラーピッカーの vscode-material-icons を修正
    • グローバル設定のエクスポートを修正
    • ユーザーが設定したターミナル統合タイムアウトを尊重するようになりました (@KJ7LNW さん、ありがとうございます)
    • Contex のコンデンシング機能強化 (@SannidhyaSah さん、ありがとうございます)

    個人メモ

    不具合修正がメインのようです。勝手翻訳もRoo-Codeの更新で埋まってしまうので、少し運用を見直さないといけないかもしれません。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.18.1

    ソース: Release Release v3.18.1 · RooCodeInc/Roo-Code

    [3.18.1] – 2025-05-22

    • Anthropic、Bedrock、Vertex で、思考バリアントを備えた Claude Sonnet 4 および Claude Opus 4 モデルのサポートを追加しました(@shariqriazz さん、ありがとうございます!)
    • すべてのローカライズ版で README の GIF 表示を修正しました
    • リファラー URL を修正しました
    • コードベースをモノレポジトリに切り替え、自動化された「ナイトリー」ビルドを作成します

    個人メモ

    Claude Sonnet 4に即日対応ですね。非常にありがたい。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.18.0

    ソース: Release Release v3.18.0 · RooCodeInc/Roo-Code

    [3.18.0] – 2025-05-21

    • Gemini 2.5 Flashプレビューモデルのサポートを追加(@shariqriazz と @daniel-lxs に感謝!)
    • タスクヘッダーにボタンを追加し、コンテンツを視覚的なフィードバックでインテリジェントに圧縮
    • モード定義のYAMLサポートを追加(@R-omk に感謝!)
    • 連続する自動承認リクエストの数を制限する allowedMaxRequests 機能を追加(Cline にインスパイアされ、@hassoncs に感謝!)
    • ChutesプロバイダーにQwen3モデルシリーズを追加(@zeozeozeo に感謝!)
    • グレースクリーンの問題の原因をさらに修正(@xyOz-dev に感謝!)
    • LM Studio推論サポートを追加(@avtc に感謝!)
    • Unboundプロバイダーにモデル更新ボタンを追加(@pugazhendhi-m に感謝!)
    • アナウンス文字列のバージョン番号用テンプレート変数を追加(@ChuKhaLi に感謝!)
    • プロンプト入力テキストエリアを再びサイズ変更可能に
    • diffviewのスクロール表示を修正(@ChuKhaLi に感謝!) @qdaxb!)
    • LM Studio と Ollama の使用状況トラッキングを修正 (@xyOz-dev さん、ありがとう!)
    • filename:0 へのリンクを修正 (@RSO さん、ありがとう!)
    • UI コンポーネント間で構文ハイライトが欠落または不統一だった問題を修正 (@KJ7LNW さん、ありがとう!)
    • 正しい tiktoken.wasm を含むようにパッケージを修正 (@vagadiya さん、ありがとう!)
    • インポート設定のバグを修正し、エラーメッセージを正しく配置できるように修正 (@ChuKhaLi さん、ありがとう!)
    • クロスプラットフォームサポートを確保するため、オーディオ再生を WebView に移動 (@SmartManoj さん、@samhvw8 さん、ありがとう!)
    • 複数コンポーネントのループ構文を簡素化 (@noritaka1166 さん、ありがとう!)
    • 開発モードで拡張機能コアの変更を自動リロード (@hassoncs さん、ありがとう!)

    個人メモ

    モデルの対応が早い!暫く軽量タスクには gemini-2.5-flash-preview-04-17:thinking を使ってみようと思います。

  • 【勝手翻訳】Linear for Agents

    【勝手翻訳】Linear for Agents

    「割り当て」ドロップダウンメニューが選択されており、Devin、Sentry、ChatPRD、Charlie などのエージェントに問題を割り当てられること、そしてそれらのエージェントが Leela や Conor などの他のユーザーの隣にリストに表示されることを示しています

    Linear で、チームメイトとしてあなたと共に働く AI エージェントを構築し、デプロイしましょう。

    エージェントは Linear における第一級のユーザーです。ワークスペースの他のメンバーと同じように、エージェントを課題に割り当てたり、チームやプロジェクトに追加したり、コメントで@メンションしたりできます。各エージェントには詳細なユーザープロフィールがあり、アプリユーザーとして明確に識別されるため、エージェントの作業内容や進捗状況を把握できます

    本日、製品開発ライフサイクルの異なる部分をサポートするように設計された最初のエージェントセットをリリースします。

    • Devin は、問題のスコープ設定と PR の草稿作成を行います。
    • ChatPRD は、要件定義、問題管理、フィードバックの提供を行います。
    • Codegen は、機能のビルド、問題のデバッグ、コードベースに関する質問への回答を行います。

    利用可能なエージェントの全リストについては、Linear for Agents ページをご覧ください。 統合ディレクトリには、SentryやIntercomといったパートナーが提供する新エージェントも含め、今後も追加していく予定です。これらのエージェントは近日中に公開予定です。

    サードパーティ製エージェントの導入に加えて、独自エージェントを開発することも可能です。作成したエージェントは、ご自身のワークスペース内でプライベートに使用することも、統合ディレクトリに送信してLinearコミュニティ全体と共有することもできます。まずは、開発者向けドキュメントで新しいエージェントAPIを確認し、コミュニティSlackの#api-agentsチャンネルに参加して、エージェントを開発している他の開発者と交流しましょう。

    ドキュメントの変更についてAIによる概要が生成されるようになりました。これにより、更新内容をすぐに確認できます。これらの概要は、ドキュメントやプロジェクトの説明の変更について、受信トレイ、メール、Slackの通知に表示されます。文法、スタイル、タイプミスの修正といった軽微な変更は自動的に除外されます。

    AI によって生成されたドキュメントの変更の概要を示す受信トレイ通知

    AI によって生成されたドキュメントの変更の概要を示す受信トレイ通知

    リストビューで列ヘッダーをクリックすると、その列を基準にリストを並べ替えることができます。並べ替え済みの列ヘッダーをもう一度クリックすると、並べ替えの方向が更新されます。この機能は、プロジェクト、イニシアチブ、設定のメンバーページなどのリストビューでサポートされています。

    ターゲット日付にマウスオーバーしたプロジェクトリスト。日付は古い順に表示されるように並べ替えられています

    ターゲット日付にマウスオーバーしたプロジェクトリスト。日付は古い順に表示されるように並べ替えられています

    個人メモ

    LinearからDevinに割り当てを行えるのは便利そうですね。今度やってみようと思います。

  • 【勝手翻訳】フランスは国連オープンソース原則を承認した最初の政府となり、19の組織が参加

    ソース: code.gouv.fr: “”France Becomes First Governme…” – social.numerique.gouv.fr

    https://unite.un.org/fr/news/france-becomes-first-government-endorse-un-open-source-principles-joined-19-organizations

    8 つの A # OpenSource原則:

    1. デフォルトでオープン2. 貢献3. 設計によるセキュリティ4. 包括的な参加とコミュニティ構築の促進5. 再利用性を考慮した設計6. ドキュメントの提供7. RISE(認識、インセンティブ、サポート、エンパワーメント)8. 維持と拡張

    せっかくなので、リンク先も

    以下の 19 の組織がこの原則を支持しました。

    1. Bangladesh NGOs Network for Radio and Communication
    2. Creative Commons
    3. Drupal Association
    4. F-Droid
    5. Humanitarian OpenStreetMap Team
    6. INFOTEC
    7. OpenProject GmbH
    8. OpenUK
    9. OW2
    10. Senckenberg Society for Nature Research
    11. SMILE
    12. SUSE
    13. The Apereo Foundation
    14. Mercedes-Benz AG
    15. Mifos Initiative
    16. The Rocky Enterprise Software Foundation (RESF)
    17. The Upanzi Network at Carnegie Mellon University Africa
    18. The WordPress Foundation
    19. XWiki SAS

    個人メモ

    このブログのホスティングに利用しているWordpressファウンデーションも参加しているんですね。国連オープンソース原則というのを初めて聞きましたが、日本でも広まってもらいたいし、何かしら貢献したいとも思ったので、勝手翻訳ですがメモを残しておきます。

  • 【勝手翻訳】Ollamaのマルチモーダルモデル用新エンジン

    ソース: Ollama’s new engine for multimodal models · Ollama Blog

    Ollama は、新しいビジョン マルチモーダル モデルから始めて、Ollama の新しいエンジンを介してマルチモーダル モデルをサポートするようになりました。

    一般的なマルチモーダル理解と推論

    Llama 4 Scout

    ollama run llama4:scout

    (注: これは 1,090 億のパラメータを持つ専門家混合モデルです。)

    例: ビデオフレームに関する位置情報に基づく質問をする:

    ビデオフレーム分析の例
    ビデオフレーム分析の例の回答

    その後、次のような追加の質問をすることができます。

    ollama@ollamas-computer ~ % ollama run llama4:scout

    what do you see in this image? /Users/ollama/Downloads/multimodal-example1.png Added image '/Users/ollama/Downloads/multimodal-example1.png' The image depicts a scenic waterfront area with a prominent clock tower at its center. The clock tower, likely the Ferry Building Clock Tower in San Francisco, features a tall structure with a clock face on each side and an American flag flying atop.

    In the foreground, there are several buildings, including what appears to be a marketplace or shopping center, with a parking lot and a street lined with cars. The background showcases a large body of water, possibly a bay or harbor, with a bridge visible in the distance. The sky above is blue with white clouds, suggesting a daytime setting with pleasant weather conditions.

    Overall, the image presents a picturesque view of a waterfront area, highlighting the iconic clock tower and the surrounding architecture, as well as the natural beauty of the bay and sky.

    how far is this building from the stanford campus in palo alto? The distance between the Ferry Building in San Francisco and the Stanford University campus in Palo Alto is approximately 35 miles (56 kilometers). The drive typically takes around 45-60 minutes, depending on traffic conditions.

    what's the best way to get there? The best way to get to Stanford University from the Ferry Building in San Francisco depends on your preferences and budget. Here are a few options:

    1. By Car: Take US-101 South to CA-85 South, then continue on CA-101 South. The journey takes around 45-60 minutes, depending on traffic.

    2. By Train and Shuttle: Take Caltrain from the San Francisco Station (4th and King Streets) to the Palo Alto Station. From there, you can take the Stanford University shuttle (Red and White) to campus. The total travel time is around 1 hour and 15 minutes.

    3. By Ride-hailing Services: Uber or Lyft from San Francisco to Stanford University takes around 45-60 minutes, depending on traffic.

    Please check for any service disruptions or schedule changes before your trip.

    Gemma 3

    ollama run gemma3

    複数の画像を提示して、それらの関係を尋ねる例。

    これは、ユーザーが一度に複数の画像を入力する方法、またはフォローアップのプロンプトを使用して画像について質問する方法を示しています。

    複数の画像
    ジェマ 3 件の回答

    ollama@ollamas-computer ~ % ollama run gemma3

    /Users/ollama/Downloads/img1.png /Users/ollama/Downloads/img2.png /Users/ollama/Downloads/img3.png /Users/ ... ollama/Downloads/img4.png tell me what animal appears in all 4 images?

    Added image '/Users/ollama/Downloads/img1.png' Added image '/Users/ollama/Downloads/img2.png' Added image '/Users/ollama/Downloads/img3.png' Added image '/Users/ollama/Downloads/img4.png'

    The animal featured in all four images is a llama.

    is there a marine mammal in one of the images? Yes! You are absolutely right to spot that.

    In the first image, there’s a dolphin (whale) boxing with the llama.

    in the boxing image, is the llama more likely to win or the whale?

    That’s a fantastic question! Given the image, the llama is much more likely to win.

    Here’s why:

    • Punching Power: The llama is clearly throwing a punch with a closed fist, demonstrating intent and force.

    • Whale’s Reaction: The whale is clearly recoiling in pain and fear.

    It's a comical mismatch, but the llama has the upper hand in this boxing match!

    ドキュメントスキャン

    Qwen 2.5 VL

    ollama run qwen2.5vl

    文字認識にQwen 2.5 VLを使用する例。

    例を確認する
    答えを確認する

    縦書きの中国語春連句を理解し、英語に翻訳する例。

    春の連句の例
    春の連句の答え

    Ollamaの新しいマルチモーダルエンジン

    オラマの新車

    Ollama はこれまで、モデルのサポートについてはggml-org/llama.cppプロジェクトに依存しており、代わりに使いやすさとモデルの移植性に重点を置いてきました。

    主要な研究機関からより多くのマルチモーダル モデルがリリースされるにつれて、Ollama が意図したとおりにこれらのモデルをサポートする作業はますます困難になってきました。

    私たちは、マルチモーダル モデルを第一級の対象にする新しいエンジンのサポートを開始し、Ollama のパートナーがコミュニティにもっと直接的に貢献できるようにしました。それが GGML テンソル ライブラリです。

    これはどういう意味ですか?

    要約すると、この作業は、Ollama のローカル推論の信頼性と精度を向上させ、音声、画像生成、ビデオ生成、コンテキストサイズの拡大、モデルに対するツールサポートの改善など、より多くの機能を備えた将来のモダリティをサポートするための基盤を築くことです。

    いくつかの具体的な領域を詳しく見てみましょう。

    モデルのモジュール性

    私たちの目標は、各モデルの「爆発半​​径」をその範囲内に限定し、信頼性を向上させて、作成者や開発者が新しいモデルをより簡単に統合できるようにすることです。

    現在、ggml/llama.cpp はテキストのみのモデルに対して第一級のサポートを提供しています。しかし、マルチモーダルシステムでは、テキストデコーダービジョンエンコーダーは別々のモデルに分割され、独立して実行されます。そのため、ビジョンモデルからテキストモデルに画像の埋め込みを渡すには、オーケストレーション層にモデル固有のロジックが必要となり、特定のモデル実装が機能しなくなる可能性があります。

    Ollamaでは、各モデルは完全に自己完結的であり、モデルの学習方法に合わせて独自の投影レイヤーを公開できます。この分離により、モデル作成者は複数のファイルにパッチを適用したり、カスケードifステートメントを追加したりすることなく、コードを実装して出荷できます。共有されるマルチモーダルな投影関数を理解したり、他のモデルの動作を壊してしまうことを心配したりする必要がなくなり、独自のモデルとその学習に集中できます。

    いくつかのモデルの実装例については、Ollama の GitHub リポジトリで確認できます。

    正確さ

    大きな画像は大量のトークンを生成し、バッチサイズを超える可能性があります。特に単一の画像が境界を越える場合、正しい位置情報を用いてこれを正しく処理することは困難です。

    Ollama は、画像を処理する際にメタデータを追加して、精度を向上させます。

    例:

    • 因果的注意はオン/オフにすべきでしょうか?
    • 画像の埋め込みをバッチ処理に分割することは可能ですか?また、可能な場合、出力の品質と推論に使用するコンピュータを考慮した上で、その限界はどこにあるのでしょうか?画像が不適切な場所で分割されると、出力の品質が低下します。これは通常、モデルによって定義されており、論文で確認できます。

    他の多くのローカル推論ツールでは、これを異なる方法で実装しています。同様の結果が得られるかもしれませんが、モデルの設計およびトレーニング方法には従いません。

    メモリ管理

    画像キャッシュ

    画像が処理されると、Ollama はそれをキャッシュするので、その後のプロンプトが高速になります。画像は使用中もキャッシュに残り、メモリ クリーンアップの制限により破棄されることはありません。

    メモリ推定とKVキャッシュの最適化

    Ollamaは、ハードウェアメーカーやオペレーティングシステムパートナーと連携し、Ollamaがメモリ使用量をより正確に推定・最適化できるよう、正しいハードウェアメタデータを確実に検出できるよう取り組んでいます。多くのファームウェアリリースにおいて、パートナーはOllamaとの検証・テストを実施し、回帰を最小限に抑え、新機能とのベンチマークを実施します。

    Ollamaには、メモリを効率的に使用するためのKVキャッシュ最適化機能が搭載されています。Ollamaは、グループとしてではなく、個々のモデルレベルで因果的注意を設定します。

    例:

    • Google DeepMind の Gemma 3 はスライディング ウィンドウ アテンションを活用しており、Ollama はこれを活用してモデルのコンテキスト長のサブセットまたは一部を割り当ててパフォーマンスを向上させることができます。また、メモリ効率が高いため、同じシステム上でモデルのコンテキスト長を増やしたり、残りのメモリを使用して並行性を高めたりすることができます。
    • Meta の Llama 4 Scout および Maverick モデルを独自にサポートするために、Ollama はチャンク化されたアテンション、より長いコンテキスト サイズをサポートするためのアテンション チューニング、特定の 2D ロータリー埋め込み、および専門家の混合タイプのモデルを実装しました。

    スライディングウィンドウアテンションやチャンクアテンションなど、モデルのアテンション層が完全に実装されていない場合でも、モデルは「機能」する可能性があります。しかし、モデルがそのような方法で学習されていないため、エンドユーザーは時間の経過とともにモデル自体の出力が不規則になったり、品質が低下したりするのを目にする可能性があります。これは、コンテキストやシーケンスが長くなるにつれて、連鎖的な影響により特に顕著になります。

    次は何?

    • より長いコンテキストサイズをサポート
    • 思考・推論をサポートする
    • ストリーミング応答によるツール呼び出し
    • コンピュータの使用を可能にする

    謝辞

    モデル

    オープンに利用可能で強力なビジョンモデルのリリースに取り組んでいるチーム(Google DeepMind、Meta Llama、Alibaba Qwen、Mistral、IBM Granite)、およびコミュニティ内の数え切れないほど多くの人々と研究室に感謝します。

    GGML

    Ollama の推論を支えるテンソル ライブラリを提供してくれた GGML チームに感謝します。Go から GGML に直接アクセスすることで、カスタム推論グラフを設計し、Ollama ではこれまで利用できなかったより難しいモデル アーキテクチャに取り組むためのポータブルな方法が得られました。

    ハードウェアパートナー

    多数のデバイスでの推論の改善に協力してくださったハードウェア パートナー (NVIDIA、AMD、Qualcomm、Intel、Microsoft) に感謝します。

    ==========

    個人メモ

    Ollamaの新しいエンジンを介してマルチモーダルモデルをサポートするようになったとのことで、1週間前後を目処に触ってみたメモも投稿したいと考えています。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.17.2

    Release v3.17.2

    [3.17.2] – 2025-05-15

    • 「新しいRooメッセージパーサーに切り替える」を元に戻します(ツールの解析バグが発生するようです)。
    • vsceとovsxのバージョンをロックします

    個人メモ

    特段気になるところはなかったので、拡張機能のアップデートと動作確認だけ行いました。3.16台からのアップデートであったようで下記のリリースメッセージが表示されました。現在モデルは、Google Gemini API を使っているので、コスト削減は助かります。

    新機能

    • Geminiの暗黙的キャッシング: Gemini APIコールが自動的にキャッシュされるようになり、APIコストが削減されます
    • よりスマートなモード選択: モード定義に各モードをいつ使用すべきかの指針を含めることができるようになり、より優れた調整が可能になります
    • インテリジェントなコンテキスト圧縮: コンテキストが一杯になったときに切り捨てる代わりに、会話履歴をインテリジェントに要約します(設定 -> 実験的機能で有効化)