Alti blog

(実験サイトでのブログなのでサイトが落ちてたらごめんなさい)

  • 【勝手翻訳+α】vSIMによるセルラーネットワークにおけるデバイスとIDの分離

    ソース: [2505.15827] Decoupling the Device and Identity in Cellular Networks with vSIM

    導入

    セルラーネットワークは今や基本的なインフラであり、日常のコミュニケーションや商取引を担うスマートフォンだけでなく、ラストマイル接続を通じてIoTやエッジコンピューティングの拡張も可能にしています。このインフラの中核を成すのがSIMカードです。SIMカードは、加入者の暗号鍵とプロファイル情報を通じて、ネットワーク認証と加入者識別に不可欠な機能を提供します。近年、SIMカードは、独立したプラグ型カードから、基板に統合された(つまり、同じ電気インターフェースで基板に半田付けされた)カード(eSIM)、そしてシステムオンチップに統合されたカード(iSIM)へと進化を遂げてきました。しかし、SIMの進化を通して、根本的な制約が依然として存在します。それは、加入者IDがハードウェアに結びついているということです。eSIMとiSIMテクノロジーは、リモートプロビジョニングを可能にするにもかかわらず、依然としてデジタルIDを特定のハードウェア要素に結び付けています。そのため、電話番号をクラウドAIサービスに移行したり、セルラー接続を維持しながら異なるデバイス間で認証情報を転送したりするといった新たなユースケースへの対応が複雑になります。さらに、eSIMとiSIMは複数のプロファイル(単一デバイス上で複数の電話番号またはキャリアプロファイル)をサポートしますが、すべてのプロファイルは同じハードウェアIDにリンクされています。アイデンティティのローテーションや分離(用途に応じて異なる番号を持つなど)によってプライバシーを維持しようとするユーザーは、セキュリティアーキテクチャのハードウェア依存の性質によって制約を受けます。本稿では、アイデンティティをデバイスから分離することで、様々なSIM設計と比較してプライバシーと柔軟性を向上させることを目指します。この分離を断つことで、リアルアイデンティティのローテーション、バーチャルアシスタントとの統合、安定したセルラー接続を維持しながらのバックアップ用携帯電話の一時的な使用といったシナリオを可能にします。

    個人メモ

    論文購読の中で、eSIM は知っていて、自分のスマートフォンでも使っているのですが、iSIM を知らなかったので、もう少し知っておくために調べました。

    iSIM(Integrated SIM)とは

    iSIM(Integrated SIM) は、従来の物理SIMカードやeSIM(組み込み型SIM)に続く、次世代のSIM技術です。iSIMはSIMの機能をデバイスのSoC(System on Chip:CPUやメモリ、通信機能などを1つにまとめた半導体チップ)内に直接組み込む方式で、物理的なSIMカードやSIMスロットが不要となります。

    主な特徴

    • SIM機能がSoC(メインチップ)内に統合されるため、デバイスの小型化・省スペース化が容易になる。
    • eSIMのようにリモートプロビジョニング(遠隔での契約情報書き換え)が可能。
    • SIMカードの物理的な抜き差しや交換が不要で、製造・物流・管理コストの削減につながる。
    • IoT機器、ウェアラブルデバイス、産業機器、スマートメーターなど幅広い分野で活用が進む。

    eSIMとの違い

    項目 eSIM iSIM
    実装場所 専用のチップ(SE)として基板に実装 SoC(メインチップ)内に統合
    物理的な部品 必要(はんだ付けなど) 不要(部品点数・スペース削減)
    セキュリティ 高い SoC内のセキュア領域でさらに高い
    小型化メリット あり より高い
    商流・調達 通信事業者からeSIMを調達 モジュールメーカーから一括調達が可能

    メリット

    • デバイスのさらなる小型化・軽量化
    • 製造コスト・物流コストの削減
    • IoTやウェアラブルなど新しい用途への展開
    • セキュリティの向上(SoC内のセキュア領域に認証情報を格納)

    今後の展望

    iSIMはGSMA(世界的な通信業界団体)で標準化が進められており、QualcommやARMなど大手半導体メーカーも開発を推進しています。今後、スマートフォンやIoT機器分野での普及が期待されています。

    まとめ

    iSIMは、通信機能を持つあらゆるデバイスの小型化・高機能化・コスト削減を実現する次世代SIM技術です。IoTやウェアラブル分野を中心に、今後急速に普及が進むと見込まれています。

    個人メモ

    iSIM は eSIM より更に小型化がインパクトがありそうですね。φ(・

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.18.3

    ソース: Release Release v3.18.3 · RooCodeInc/Roo-Code

    [3.18.3] – 2025-05-24

    • OpenRouter で Claude 4 および Gemini 2.5 Flash の推論サポートを追加し、o1-pro の修正も実施しました。
    • 実験的なコードベースインデックスとセマンティック検索機能を追加しました (@daniel-lxs さん、ありがとうございます!)
    • 以前はデフォルトで Sonnet 3.7 に設定されていたプロバイダーについては、Sonnet 4 に変更しました。
    • Gemini 2.5 Flash Preview のプロンプトキャッシュを有効にしました (@shariqriazz さん、ありがとうございます!)
    • 特定の OpenRouter プロバイダーを選択する際にモデル設定を保持します。
    • LiteLLM モデルリストを更新する機能を追加しました。
    • 適切なファイル編集ツールの選択をガイドするためにツールの説明を改善しました。
    • npx および bunx で実行する際に MCP サーバーが設定をロードする際に発生するエラーを修正しました (@devxpain さん、ありがとうございます!)
    • pnpm のブートストラップを改善し、コンパイルスクリプトを追加しました (@KJ7LNW さん、ありがとうございます!)
    • オブジェクトの割り当てを簡素化し、startsWith を使用できるようにしました (@noritaka1166 さん、ありがとうございます!)
    • コンテキストトラッカーの既読マークロジックを修正しました (@ @samhvw8!)
    • vscodelm から非推奨の claude-3.7-sonnet モデルを削除しました(@shariqriazz さん、ありがとうございます!)

    個人メモ

    X/旧Twitter のプロフィールを見ていただいたのか、このブログ投稿の影響なのか、公式の Roo Code(@roo_code)さん / X にフォロー頂きました。Roo Code関連の投稿を増やしていこうと思います。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.18.2

    Release Release v3.18.2 · RooCodeInc/Roo-Code

    [3.18.2] – 2025-05-23

    • ファイラーピッカーの vscode-material-icons を修正
    • グローバル設定のエクスポートを修正
    • ユーザーが設定したターミナル統合タイムアウトを尊重するようになりました (@KJ7LNW さん、ありがとうございます)
    • Contex のコンデンシング機能強化 (@SannidhyaSah さん、ありがとうございます)

    個人メモ

    不具合修正がメインのようです。勝手翻訳もRoo-Codeの更新で埋まってしまうので、少し運用を見直さないといけないかもしれません。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.18.1

    ソース: Release Release v3.18.1 · RooCodeInc/Roo-Code

    [3.18.1] – 2025-05-22

    • Anthropic、Bedrock、Vertex で、思考バリアントを備えた Claude Sonnet 4 および Claude Opus 4 モデルのサポートを追加しました(@shariqriazz さん、ありがとうございます!)
    • すべてのローカライズ版で README の GIF 表示を修正しました
    • リファラー URL を修正しました
    • コードベースをモノレポジトリに切り替え、自動化された「ナイトリー」ビルドを作成します

    個人メモ

    Claude Sonnet 4に即日対応ですね。非常にありがたい。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.18.0

    ソース: Release Release v3.18.0 · RooCodeInc/Roo-Code

    [3.18.0] – 2025-05-21

    • Gemini 2.5 Flashプレビューモデルのサポートを追加(@shariqriazz と @daniel-lxs に感謝!)
    • タスクヘッダーにボタンを追加し、コンテンツを視覚的なフィードバックでインテリジェントに圧縮
    • モード定義のYAMLサポートを追加(@R-omk に感謝!)
    • 連続する自動承認リクエストの数を制限する allowedMaxRequests 機能を追加(Cline にインスパイアされ、@hassoncs に感謝!)
    • ChutesプロバイダーにQwen3モデルシリーズを追加(@zeozeozeo に感謝!)
    • グレースクリーンの問題の原因をさらに修正(@xyOz-dev に感謝!)
    • LM Studio推論サポートを追加(@avtc に感謝!)
    • Unboundプロバイダーにモデル更新ボタンを追加(@pugazhendhi-m に感謝!)
    • アナウンス文字列のバージョン番号用テンプレート変数を追加(@ChuKhaLi に感謝!)
    • プロンプト入力テキストエリアを再びサイズ変更可能に
    • diffviewのスクロール表示を修正(@ChuKhaLi に感謝!) @qdaxb!)
    • LM Studio と Ollama の使用状況トラッキングを修正 (@xyOz-dev さん、ありがとう!)
    • filename:0 へのリンクを修正 (@RSO さん、ありがとう!)
    • UI コンポーネント間で構文ハイライトが欠落または不統一だった問題を修正 (@KJ7LNW さん、ありがとう!)
    • 正しい tiktoken.wasm を含むようにパッケージを修正 (@vagadiya さん、ありがとう!)
    • インポート設定のバグを修正し、エラーメッセージを正しく配置できるように修正 (@ChuKhaLi さん、ありがとう!)
    • クロスプラットフォームサポートを確保するため、オーディオ再生を WebView に移動 (@SmartManoj さん、@samhvw8 さん、ありがとう!)
    • 複数コンポーネントのループ構文を簡素化 (@noritaka1166 さん、ありがとう!)
    • 開発モードで拡張機能コアの変更を自動リロード (@hassoncs さん、ありがとう!)

    個人メモ

    モデルの対応が早い!暫く軽量タスクには gemini-2.5-flash-preview-04-17:thinking を使ってみようと思います。

  • 【勝手翻訳】Linear for Agents

    【勝手翻訳】Linear for Agents

    「割り当て」ドロップダウンメニューが選択されており、Devin、Sentry、ChatPRD、Charlie などのエージェントに問題を割り当てられること、そしてそれらのエージェントが Leela や Conor などの他のユーザーの隣にリストに表示されることを示しています

    Linear で、チームメイトとしてあなたと共に働く AI エージェントを構築し、デプロイしましょう。

    エージェントは Linear における第一級のユーザーです。ワークスペースの他のメンバーと同じように、エージェントを課題に割り当てたり、チームやプロジェクトに追加したり、コメントで@メンションしたりできます。各エージェントには詳細なユーザープロフィールがあり、アプリユーザーとして明確に識別されるため、エージェントの作業内容や進捗状況を把握できます

    本日、製品開発ライフサイクルの異なる部分をサポートするように設計された最初のエージェントセットをリリースします。

    • Devin は、問題のスコープ設定と PR の草稿作成を行います。
    • ChatPRD は、要件定義、問題管理、フィードバックの提供を行います。
    • Codegen は、機能のビルド、問題のデバッグ、コードベースに関する質問への回答を行います。

    利用可能なエージェントの全リストについては、Linear for Agents ページをご覧ください。 統合ディレクトリには、SentryやIntercomといったパートナーが提供する新エージェントも含め、今後も追加していく予定です。これらのエージェントは近日中に公開予定です。

    サードパーティ製エージェントの導入に加えて、独自エージェントを開発することも可能です。作成したエージェントは、ご自身のワークスペース内でプライベートに使用することも、統合ディレクトリに送信してLinearコミュニティ全体と共有することもできます。まずは、開発者向けドキュメントで新しいエージェントAPIを確認し、コミュニティSlackの#api-agentsチャンネルに参加して、エージェントを開発している他の開発者と交流しましょう。

    ドキュメントの変更についてAIによる概要が生成されるようになりました。これにより、更新内容をすぐに確認できます。これらの概要は、ドキュメントやプロジェクトの説明の変更について、受信トレイ、メール、Slackの通知に表示されます。文法、スタイル、タイプミスの修正といった軽微な変更は自動的に除外されます。

    AI によって生成されたドキュメントの変更の概要を示す受信トレイ通知

    AI によって生成されたドキュメントの変更の概要を示す受信トレイ通知

    リストビューで列ヘッダーをクリックすると、その列を基準にリストを並べ替えることができます。並べ替え済みの列ヘッダーをもう一度クリックすると、並べ替えの方向が更新されます。この機能は、プロジェクト、イニシアチブ、設定のメンバーページなどのリストビューでサポートされています。

    ターゲット日付にマウスオーバーしたプロジェクトリスト。日付は古い順に表示されるように並べ替えられています

    ターゲット日付にマウスオーバーしたプロジェクトリスト。日付は古い順に表示されるように並べ替えられています

    個人メモ

    LinearからDevinに割り当てを行えるのは便利そうですね。今度やってみようと思います。

  • 会社メールサーバーの技術選定

    二社目の起業、設立前のタスク – Alti blog から一部深堀りします。

    選択肢

    の2つの選択肢で、レンタルサーバーや自前サーバーなど他の選択肢は考えていませんでした。なお、両方とも構築や管理をしたことがあるので、どちらでも構いません。

    アルティ独自の条件

    • 技術顧問というコンサルティング事業者であり、Microsoft Officeファイルの参照/編集は行うため、Google Workspaceを選択したとしてもOfficeライセンスの調達は必要
    • 現在の作業用の据え置きPCは、Windows 11
    • 現在の持ち運び用のノートPCは、macOS
    • 今後の社員用のPCの選択に制限を加えたくない

    悩んだポイント

    • Google Workspaceはユーザー体験が優れている
    • Google Workspaceは管理者体験が優れている (比較して、学習コストが小さい)
    • Microsoft 365には、デスクトップ版Officeのライセンスを含んだものがある
    • Microsoft 365には、セキュリティやMDM機能など、エンタープライズ向けのデバイス管理機能がある

    最終ポイント

    なまじっか自分がシステム管理業務できるため、社員雇用では情シス(コーポレートエンジニア)の採用は考えておらず、ユーザー体験より管理者体験を優先し、将来セキュリティポリシー展開やIntuneでのデバイス展開が利用しやすいことを優先した。

    メモ

    最後は自分がIntuneを使いたかっただけという可能性もあります。今回をきっかけに色々考えたり、作業してましたが、事業の中で、Microsoft Officeのファイルを頻繁に使わず、いずれ社員が増えた場合は、キッティング含む情シス社員を雇用するし、必要なセキュリティはその人に考えてもらうし。みたいな構想のスタートアップは、Google Workspaceの方が立ち上げは簡単だろうなと改めて思いました。

  • 【消化不良】Ollamaの新しいエンジンを使ってみた

    【消化不良】Ollamaの新しいエンジンを使ってみた

    きっかけ: 【勝手翻訳】Ollamaのマルチモーダルモデル用新エンジン

    結論

    申し訳ないのですが、新しいエンジンというのが良く分からなかったのですが、マルチモーダル機能は動きました(理解が正しいのかさえ怪しいですが)。

    やったこと

    • Ollamaのインストール
    • gemma3:12bのダウンロードと実行
    • Open WebUIのインストールと実行
    • Open WebUIで、gemma3:12bのモデルを指定したチャットで、画像の中身を読み取って日本語で解説(撮影された建物までの距離)を依頼

    先頭に貼り付けたスクリーンショット画像の通り、実用的なスピード(決して早いという訳ではない)での実行を確認することができました。

    個人メモ

    ちょっと小手先でのキャッチアップでは時間と知識が足らなかったので、生煮え投稿で申し訳ないのですが、今日は作業ログということで、ここまでにします。他の実験などで分かることがあったら、またご報告します。

  • 【勝手翻訳】フランスは国連オープンソース原則を承認した最初の政府となり、19の組織が参加

    ソース: code.gouv.fr: “”France Becomes First Governme…” – social.numerique.gouv.fr

    https://unite.un.org/fr/news/france-becomes-first-government-endorse-un-open-source-principles-joined-19-organizations

    8 つの A # OpenSource原則:

    1. デフォルトでオープン2. 貢献3. 設計によるセキュリティ4. 包括的な参加とコミュニティ構築の促進5. 再利用性を考慮した設計6. ドキュメントの提供7. RISE(認識、インセンティブ、サポート、エンパワーメント)8. 維持と拡張

    せっかくなので、リンク先も

    以下の 19 の組織がこの原則を支持しました。

    1. Bangladesh NGOs Network for Radio and Communication
    2. Creative Commons
    3. Drupal Association
    4. F-Droid
    5. Humanitarian OpenStreetMap Team
    6. INFOTEC
    7. OpenProject GmbH
    8. OpenUK
    9. OW2
    10. Senckenberg Society for Nature Research
    11. SMILE
    12. SUSE
    13. The Apereo Foundation
    14. Mercedes-Benz AG
    15. Mifos Initiative
    16. The Rocky Enterprise Software Foundation (RESF)
    17. The Upanzi Network at Carnegie Mellon University Africa
    18. The WordPress Foundation
    19. XWiki SAS

    個人メモ

    このブログのホスティングに利用しているWordpressファウンデーションも参加しているんですね。国連オープンソース原則というのを初めて聞きましたが、日本でも広まってもらいたいし、何かしら貢献したいとも思ったので、勝手翻訳ですがメモを残しておきます。

  • 【勝手翻訳】Ollamaのマルチモーダルモデル用新エンジン

    ソース: Ollama’s new engine for multimodal models · Ollama Blog

    Ollama は、新しいビジョン マルチモーダル モデルから始めて、Ollama の新しいエンジンを介してマルチモーダル モデルをサポートするようになりました。

    一般的なマルチモーダル理解と推論

    Llama 4 Scout

    ollama run llama4:scout

    (注: これは 1,090 億のパラメータを持つ専門家混合モデルです。)

    例: ビデオフレームに関する位置情報に基づく質問をする:

    ビデオフレーム分析の例
    ビデオフレーム分析の例の回答

    その後、次のような追加の質問をすることができます。

    ollama@ollamas-computer ~ % ollama run llama4:scout

    what do you see in this image? /Users/ollama/Downloads/multimodal-example1.png Added image '/Users/ollama/Downloads/multimodal-example1.png' The image depicts a scenic waterfront area with a prominent clock tower at its center. The clock tower, likely the Ferry Building Clock Tower in San Francisco, features a tall structure with a clock face on each side and an American flag flying atop.

    In the foreground, there are several buildings, including what appears to be a marketplace or shopping center, with a parking lot and a street lined with cars. The background showcases a large body of water, possibly a bay or harbor, with a bridge visible in the distance. The sky above is blue with white clouds, suggesting a daytime setting with pleasant weather conditions.

    Overall, the image presents a picturesque view of a waterfront area, highlighting the iconic clock tower and the surrounding architecture, as well as the natural beauty of the bay and sky.

    how far is this building from the stanford campus in palo alto? The distance between the Ferry Building in San Francisco and the Stanford University campus in Palo Alto is approximately 35 miles (56 kilometers). The drive typically takes around 45-60 minutes, depending on traffic conditions.

    what's the best way to get there? The best way to get to Stanford University from the Ferry Building in San Francisco depends on your preferences and budget. Here are a few options:

    1. By Car: Take US-101 South to CA-85 South, then continue on CA-101 South. The journey takes around 45-60 minutes, depending on traffic.

    2. By Train and Shuttle: Take Caltrain from the San Francisco Station (4th and King Streets) to the Palo Alto Station. From there, you can take the Stanford University shuttle (Red and White) to campus. The total travel time is around 1 hour and 15 minutes.

    3. By Ride-hailing Services: Uber or Lyft from San Francisco to Stanford University takes around 45-60 minutes, depending on traffic.

    Please check for any service disruptions or schedule changes before your trip.

    Gemma 3

    ollama run gemma3

    複数の画像を提示して、それらの関係を尋ねる例。

    これは、ユーザーが一度に複数の画像を入力する方法、またはフォローアップのプロンプトを使用して画像について質問する方法を示しています。

    複数の画像
    ジェマ 3 件の回答

    ollama@ollamas-computer ~ % ollama run gemma3

    /Users/ollama/Downloads/img1.png /Users/ollama/Downloads/img2.png /Users/ollama/Downloads/img3.png /Users/ ... ollama/Downloads/img4.png tell me what animal appears in all 4 images?

    Added image '/Users/ollama/Downloads/img1.png' Added image '/Users/ollama/Downloads/img2.png' Added image '/Users/ollama/Downloads/img3.png' Added image '/Users/ollama/Downloads/img4.png'

    The animal featured in all four images is a llama.

    is there a marine mammal in one of the images? Yes! You are absolutely right to spot that.

    In the first image, there’s a dolphin (whale) boxing with the llama.

    in the boxing image, is the llama more likely to win or the whale?

    That’s a fantastic question! Given the image, the llama is much more likely to win.

    Here’s why:

    • Punching Power: The llama is clearly throwing a punch with a closed fist, demonstrating intent and force.

    • Whale’s Reaction: The whale is clearly recoiling in pain and fear.

    It's a comical mismatch, but the llama has the upper hand in this boxing match!

    ドキュメントスキャン

    Qwen 2.5 VL

    ollama run qwen2.5vl

    文字認識にQwen 2.5 VLを使用する例。

    例を確認する
    答えを確認する

    縦書きの中国語春連句を理解し、英語に翻訳する例。

    春の連句の例
    春の連句の答え

    Ollamaの新しいマルチモーダルエンジン

    オラマの新車

    Ollama はこれまで、モデルのサポートについてはggml-org/llama.cppプロジェクトに依存しており、代わりに使いやすさとモデルの移植性に重点を置いてきました。

    主要な研究機関からより多くのマルチモーダル モデルがリリースされるにつれて、Ollama が意図したとおりにこれらのモデルをサポートする作業はますます困難になってきました。

    私たちは、マルチモーダル モデルを第一級の対象にする新しいエンジンのサポートを開始し、Ollama のパートナーがコミュニティにもっと直接的に貢献できるようにしました。それが GGML テンソル ライブラリです。

    これはどういう意味ですか?

    要約すると、この作業は、Ollama のローカル推論の信頼性と精度を向上させ、音声、画像生成、ビデオ生成、コンテキストサイズの拡大、モデルに対するツールサポートの改善など、より多くの機能を備えた将来のモダリティをサポートするための基盤を築くことです。

    いくつかの具体的な領域を詳しく見てみましょう。

    モデルのモジュール性

    私たちの目標は、各モデルの「爆発半​​径」をその範囲内に限定し、信頼性を向上させて、作成者や開発者が新しいモデルをより簡単に統合できるようにすることです。

    現在、ggml/llama.cpp はテキストのみのモデルに対して第一級のサポートを提供しています。しかし、マルチモーダルシステムでは、テキストデコーダービジョンエンコーダーは別々のモデルに分割され、独立して実行されます。そのため、ビジョンモデルからテキストモデルに画像の埋め込みを渡すには、オーケストレーション層にモデル固有のロジックが必要となり、特定のモデル実装が機能しなくなる可能性があります。

    Ollamaでは、各モデルは完全に自己完結的であり、モデルの学習方法に合わせて独自の投影レイヤーを公開できます。この分離により、モデル作成者は複数のファイルにパッチを適用したり、カスケードifステートメントを追加したりすることなく、コードを実装して出荷できます。共有されるマルチモーダルな投影関数を理解したり、他のモデルの動作を壊してしまうことを心配したりする必要がなくなり、独自のモデルとその学習に集中できます。

    いくつかのモデルの実装例については、Ollama の GitHub リポジトリで確認できます。

    正確さ

    大きな画像は大量のトークンを生成し、バッチサイズを超える可能性があります。特に単一の画像が境界を越える場合、正しい位置情報を用いてこれを正しく処理することは困難です。

    Ollama は、画像を処理する際にメタデータを追加して、精度を向上させます。

    例:

    • 因果的注意はオン/オフにすべきでしょうか?
    • 画像の埋め込みをバッチ処理に分割することは可能ですか?また、可能な場合、出力の品質と推論に使用するコンピュータを考慮した上で、その限界はどこにあるのでしょうか?画像が不適切な場所で分割されると、出力の品質が低下します。これは通常、モデルによって定義されており、論文で確認できます。

    他の多くのローカル推論ツールでは、これを異なる方法で実装しています。同様の結果が得られるかもしれませんが、モデルの設計およびトレーニング方法には従いません。

    メモリ管理

    画像キャッシュ

    画像が処理されると、Ollama はそれをキャッシュするので、その後のプロンプトが高速になります。画像は使用中もキャッシュに残り、メモリ クリーンアップの制限により破棄されることはありません。

    メモリ推定とKVキャッシュの最適化

    Ollamaは、ハードウェアメーカーやオペレーティングシステムパートナーと連携し、Ollamaがメモリ使用量をより正確に推定・最適化できるよう、正しいハードウェアメタデータを確実に検出できるよう取り組んでいます。多くのファームウェアリリースにおいて、パートナーはOllamaとの検証・テストを実施し、回帰を最小限に抑え、新機能とのベンチマークを実施します。

    Ollamaには、メモリを効率的に使用するためのKVキャッシュ最適化機能が搭載されています。Ollamaは、グループとしてではなく、個々のモデルレベルで因果的注意を設定します。

    例:

    • Google DeepMind の Gemma 3 はスライディング ウィンドウ アテンションを活用しており、Ollama はこれを活用してモデルのコンテキスト長のサブセットまたは一部を割り当ててパフォーマンスを向上させることができます。また、メモリ効率が高いため、同じシステム上でモデルのコンテキスト長を増やしたり、残りのメモリを使用して並行性を高めたりすることができます。
    • Meta の Llama 4 Scout および Maverick モデルを独自にサポートするために、Ollama はチャンク化されたアテンション、より長いコンテキスト サイズをサポートするためのアテンション チューニング、特定の 2D ロータリー埋め込み、および専門家の混合タイプのモデルを実装しました。

    スライディングウィンドウアテンションやチャンクアテンションなど、モデルのアテンション層が完全に実装されていない場合でも、モデルは「機能」する可能性があります。しかし、モデルがそのような方法で学習されていないため、エンドユーザーは時間の経過とともにモデル自体の出力が不規則になったり、品質が低下したりするのを目にする可能性があります。これは、コンテキストやシーケンスが長くなるにつれて、連鎖的な影響により特に顕著になります。

    次は何?

    • より長いコンテキストサイズをサポート
    • 思考・推論をサポートする
    • ストリーミング応答によるツール呼び出し
    • コンピュータの使用を可能にする

    謝辞

    モデル

    オープンに利用可能で強力なビジョンモデルのリリースに取り組んでいるチーム(Google DeepMind、Meta Llama、Alibaba Qwen、Mistral、IBM Granite)、およびコミュニティ内の数え切れないほど多くの人々と研究室に感謝します。

    GGML

    Ollama の推論を支えるテンソル ライブラリを提供してくれた GGML チームに感謝します。Go から GGML に直接アクセスすることで、カスタム推論グラフを設計し、Ollama ではこれまで利用できなかったより難しいモデル アーキテクチャに取り組むためのポータブルな方法が得られました。

    ハードウェアパートナー

    多数のデバイスでの推論の改善に協力してくださったハードウェア パートナー (NVIDIA、AMD、Qualcomm、Intel、Microsoft) に感謝します。

    ==========

    個人メモ

    Ollamaの新しいエンジンを介してマルチモーダルモデルをサポートするようになったとのことで、1週間前後を目処に触ってみたメモも投稿したいと考えています。