きっかけ: 【勝手翻訳】Ollamaのマルチモーダルモデル用新エンジン
結論
申し訳ないのですが、新しいエンジンというのが良く分からなかったのですが、マルチモーダル機能は動きました(理解が正しいのかさえ怪しいですが)。
やったこと
- Ollamaのインストール
- gemma3:12bのダウンロードと実行
- Open WebUIのインストールと実行
- Open WebUIで、gemma3:12bのモデルを指定したチャットで、画像の中身を読み取って日本語で解説(撮影された建物までの距離)を依頼
先頭に貼り付けたスクリーンショット画像の通り、実用的なスピード(決して早いという訳ではない)での実行を確認することができました。
個人メモ
ちょっと小手先でのキャッチアップでは時間と知識が足らなかったので、生煮え投稿で申し訳ないのですが、今日は作業ログということで、ここまでにします。他の実験などで分かることがあったら、またご報告します。