【勝手翻訳】Ollamaのマルチモーダルモデル用新エンジン

ソース: Ollama’s new engine for multimodal models · Ollama Blog

Ollama は、新しいビジョンマルチモーダルモデルから始めて、Ollama の新しいエンジンを介してマルチモーダルモデルをサポートするようになりました。

一般的なマルチモーダル理解と推論

Llama 4 Scout

ollama run llama4:scout

(注: これは 1,090 億のパラメータを持つ専門家混合モデルです。)

例: ビデオフレームに関する位置情報に基づく質問をする:

その後、次のような追加の質問をすることができます。

ollama@ollamas-computer ~ % ollama run llama4:scout





what do you see in this image?  /Users/ollama/Downloads/multimodal-example1.png
Added image '/Users/ollama/Downloads/multimodal-example1.png'
The image depicts a scenic waterfront area with a prominent clock tower at its center. The clock tower, likely the Ferry Building Clock Tower in San Francisco, features a tall structure with a clock face on each side and an American flag flying atop. 



In the foreground, there are several buildings, including what appears to be a marketplace or shopping center, with a parking lot and a street lined with cars. The background showcases a large body of water, possibly a bay or harbor, with a bridge visible in the distance. The sky above is blue with white clouds, suggesting a daytime setting with pleasant weather conditions.
Overall, the image presents a picturesque view of a waterfront area, highlighting the iconic clock tower and the surrounding architecture, as well as the natural beauty of the bay and sky.



how far is this building from the stanford campus in palo alto?
The distance between the Ferry Building in San Francisco and the Stanford University campus in Palo Alto is approximately 35 miles (56 kilometers). The drive typically takes around 45-60 minutes, depending on traffic conditions.
what's the best way to get there?
The best way to get to Stanford University from the Ferry Building in San Francisco depends on your preferences and budget. Here are a few options:





By Car: Take US-101 South to CA-85 South, then continue on CA-101 South. The journey takes around 45-60 minutes, depending on traffic.


By Train and Shuttle: Take Caltrain from the San Francisco Station (4th and King Streets) to the Palo Alto Station. From there, you can take the Stanford University shuttle (Red and White) to campus. The total travel time is around 1 hour and 15 minutes.


By Ride-hailing Services: Uber or Lyft from San Francisco to Stanford University takes around 45-60 minutes, depending on traffic.

Please check for any service disruptions or schedule changes before your trip.

Gemma 3

ollama run gemma3

複数の画像を提示して、それらの関係を尋ねる例。

これは、ユーザーが一度に複数の画像を入力する方法、またはフォローアップのプロンプトを使用して画像について質問する方法を示しています。

ollama@ollamas-computer ~ % ollama run gemma3





/Users/ollama/Downloads/img1.png /Users/ollama/Downloads/img2.png /Users/ollama/Downloads/img3.png /Users/
... ollama/Downloads/img4.png tell me what animal appears in all 4 images? 



Added image '/Users/ollama/Downloads/img1.png'
Added image '/Users/ollama/Downloads/img2.png'
Added image '/Users/ollama/Downloads/img3.png'
Added image '/Users/ollama/Downloads/img4.png'
The animal featured in all four images is a llama.



is there a marine mammal in one of the images?
Yes! You are absolutely right to spot that. 



In the first image, there’s a dolphin (whale) boxing with the llama.



in the boxing image, is the llama more likely to win or the whale? 



That’s a fantastic question! Given the image, the llama is much more likely to win. 
Here’s why:


Punching Power: The llama is clearly throwing a punch with a closed fist, demonstrating intent and force.


Whale’s Reaction: The whale is clearly recoiling in pain and fear.

It's a comical mismatch, but the llama has the upper hand in this boxing match!

ドキュメントスキャン

Qwen 2.5 VL

ollama run qwen2.5vl

文字認識にQwen 2.5 VLを使用する例。

縦書きの中国語春連句を理解し、英語に翻訳する例。

Ollamaの新しいマルチモーダルエンジン

Ollama はこれまで、モデルのサポートについてはggml-org/llama.cppプロジェクトに依存しており、代わりに使いやすさとモデルの移植性に重点を置いてきました。

主要な研究機関からより多くのマルチモーダルモデルがリリースされるにつれて、Ollama が意図したとおりにこれらのモデルをサポートする作業はますます困難になってきました。

私たちは、マルチモーダルモデルを第一級の対象にする新しいエンジンのサポートを開始し、Ollama のパートナーがコミュニティにもっと直接的に貢献できるようにしました。それが GGML テンソルライブラリです。

これはどういう意味ですか？

要約すると、この作業は、Ollama のローカル推論の信頼性と精度を向上させ、音声、画像生成、ビデオ生成、コンテキストサイズの拡大、モデルに対するツールサポートの改善など、より多くの機能を備えた将来のモダリティをサポートするための基盤を築くことです。

いくつかの具体的な領域を詳しく見てみましょう。

モデルのモジュール性

私たちの目標は、各モデルの「爆発半径」をその範囲内に限定し、信頼性を向上させて、作成者や開発者が新しいモデルをより簡単に統合できるようにすることです。

現在、ggml/llama.cpp はテキストのみのモデルに対して第一級のサポートを提供しています。しかし、マルチモーダルシステムでは、テキストデコーダーとビジョンエンコーダーは別々のモデルに分割され、独立して実行されます。そのため、ビジョンモデルからテキストモデルに画像の埋め込みを渡すには、オーケストレーション層にモデル固有のロジックが必要となり、特定のモデル実装が機能しなくなる可能性があります。

Ollamaでは、各モデルは完全に自己完結的であり、モデルの学習方法に合わせて独自の投影レイヤーを公開できます。この分離により、モデル作成者は複数のファイルにパッチを適用したり、カスケードifステートメントを追加したりすることなく、コードを実装して出荷できます。共有されるマルチモーダルな投影関数を理解したり、他のモデルの動作を壊してしまうことを心配したりする必要がなくなり、独自のモデルとその学習に集中できます。

いくつかのモデルの実装例については、Ollama の GitHub リポジトリで確認できます。

正確さ

大きな画像は大量のトークンを生成し、バッチサイズを超える可能性があります。特に単一の画像が境界を越える場合、正しい位置情報を用いてこれを正しく処理することは困難です。

Ollama は、画像を処理する際にメタデータを追加して、精度を向上させます。

例:

因果的注意はオン/オフにすべきでしょうか?
画像の埋め込みをバッチ処理に分割することは可能ですか？また、可能な場合、出力の品質と推論に使用するコンピュータを考慮した上で、その限界はどこにあるのでしょうか？画像が不適切な場所で分割されると、出力の品質が低下します。これは通常、モデルによって定義されており、論文で確認できます。

他の多くのローカル推論ツールでは、これを異なる方法で実装しています。同様の結果が得られるかもしれませんが、モデルの設計およびトレーニング方法には従いません。

メモリ管理

画像キャッシュ

画像が処理されると、Ollama はそれをキャッシュするので、その後のプロンプトが高速になります。画像は使用中もキャッシュに残り、メモリクリーンアップの制限により破棄されることはありません。

メモリ推定とKVキャッシュの最適化

Ollamaは、ハードウェアメーカーやオペレーティングシステムパートナーと連携し、Ollamaがメモリ使用量をより正確に推定・最適化できるよう、正しいハードウェアメタデータを確実に検出できるよう取り組んでいます。多くのファームウェアリリースにおいて、パートナーはOllamaとの検証・テストを実施し、回帰を最小限に抑え、新機能とのベンチマークを実施します。

Ollamaには、メモリを効率的に使用するためのKVキャッシュ最適化機能が搭載されています。Ollamaは、グループとしてではなく、個々のモデルレベルで因果的注意を設定します。

例:

Google DeepMind の Gemma 3 はスライディングウィンドウアテンションを活用しており、Ollama はこれを活用してモデルのコンテキスト長のサブセットまたは一部を割り当ててパフォーマンスを向上させることができます。また、メモリ効率が高いため、同じシステム上でモデルのコンテキスト長を増やしたり、残りのメモリを使用して並行性を高めたりすることができます。
Meta の Llama 4 Scout および Maverick モデルを独自にサポートするために、Ollama はチャンク化されたアテンション、より長いコンテキストサイズをサポートするためのアテンションチューニング、特定の 2D ロータリー埋め込み、および専門家の混合タイプのモデルを実装しました。

スライディングウィンドウアテンションやチャンクアテンションなど、モデルのアテンション層が完全に実装されていない場合でも、モデルは「機能」する可能性があります。しかし、モデルがそのような方法で学習されていないため、エンドユーザーは時間の経過とともにモデル自体の出力が不規則になったり、品質が低下したりするのを目にする可能性があります。これは、コンテキストやシーケンスが長くなるにつれて、連鎖的な影響により特に顕著になります。

次は何？

より長いコンテキストサイズをサポート
思考・推論をサポートする
ストリーミング応答によるツール呼び出し
コンピュータの使用を可能にする

謝辞

モデル

オープンに利用可能で強力なビジョンモデルのリリースに取り組んでいるチーム（Google DeepMind、Meta Llama、Alibaba Qwen、Mistral、IBM Granite）、およびコミュニティ内の数え切れないほど多くの人々と研究室に感謝します。

GGML

Ollama の推論を支えるテンソルライブラリを提供してくれた GGML チームに感謝します。Go から GGML に直接アクセスすることで、カスタム推論グラフを設計し、Ollama ではこれまで利用できなかったより難しいモデルアーキテクチャに取り組むためのポータブルな方法が得られました。

ハードウェアパートナー

多数のデバイスでの推論の改善に協力してくださったハードウェアパートナー (NVIDIA、AMD、Qualcomm、Intel、Microsoft) に感謝します。

==========

個人メモ

Ollamaの新しいエンジンを介してマルチモーダルモデルをサポートするようになったとのことで、1週間前後を目処に触ってみたメモも投稿したいと考えています。