Alti blog

(実験サイトでのブログなのでサイトが落ちてたらごめんなさい)

  • 【勝手翻訳】フランスは国連オープンソース原則を承認した最初の政府となり、19の組織が参加

    ソース: code.gouv.fr: “”France Becomes First Governme…” – social.numerique.gouv.fr

    https://unite.un.org/fr/news/france-becomes-first-government-endorse-un-open-source-principles-joined-19-organizations

    8 つの A # OpenSource原則:

    1. デフォルトでオープン2. 貢献3. 設計によるセキュリティ4. 包括的な参加とコミュニティ構築の促進5. 再利用性を考慮した設計6. ドキュメントの提供7. RISE(認識、インセンティブ、サポート、エンパワーメント)8. 維持と拡張

    せっかくなので、リンク先も

    以下の 19 の組織がこの原則を支持しました。

    1. Bangladesh NGOs Network for Radio and Communication
    2. Creative Commons
    3. Drupal Association
    4. F-Droid
    5. Humanitarian OpenStreetMap Team
    6. INFOTEC
    7. OpenProject GmbH
    8. OpenUK
    9. OW2
    10. Senckenberg Society for Nature Research
    11. SMILE
    12. SUSE
    13. The Apereo Foundation
    14. Mercedes-Benz AG
    15. Mifos Initiative
    16. The Rocky Enterprise Software Foundation (RESF)
    17. The Upanzi Network at Carnegie Mellon University Africa
    18. The WordPress Foundation
    19. XWiki SAS

    個人メモ

    このブログのホスティングに利用しているWordpressファウンデーションも参加しているんですね。国連オープンソース原則というのを初めて聞きましたが、日本でも広まってもらいたいし、何かしら貢献したいとも思ったので、勝手翻訳ですがメモを残しておきます。

  • 【勝手翻訳】Ollamaのマルチモーダルモデル用新エンジン

    ソース: Ollama’s new engine for multimodal models · Ollama Blog

    Ollama は、新しいビジョン マルチモーダル モデルから始めて、Ollama の新しいエンジンを介してマルチモーダル モデルをサポートするようになりました。

    一般的なマルチモーダル理解と推論

    Llama 4 Scout

    ollama run llama4:scout

    (注: これは 1,090 億のパラメータを持つ専門家混合モデルです。)

    例: ビデオフレームに関する位置情報に基づく質問をする:

    ビデオフレーム分析の例
    ビデオフレーム分析の例の回答

    その後、次のような追加の質問をすることができます。

    ollama@ollamas-computer ~ % ollama run llama4:scout

    what do you see in this image? /Users/ollama/Downloads/multimodal-example1.png Added image '/Users/ollama/Downloads/multimodal-example1.png' The image depicts a scenic waterfront area with a prominent clock tower at its center. The clock tower, likely the Ferry Building Clock Tower in San Francisco, features a tall structure with a clock face on each side and an American flag flying atop.

    In the foreground, there are several buildings, including what appears to be a marketplace or shopping center, with a parking lot and a street lined with cars. The background showcases a large body of water, possibly a bay or harbor, with a bridge visible in the distance. The sky above is blue with white clouds, suggesting a daytime setting with pleasant weather conditions.

    Overall, the image presents a picturesque view of a waterfront area, highlighting the iconic clock tower and the surrounding architecture, as well as the natural beauty of the bay and sky.

    how far is this building from the stanford campus in palo alto? The distance between the Ferry Building in San Francisco and the Stanford University campus in Palo Alto is approximately 35 miles (56 kilometers). The drive typically takes around 45-60 minutes, depending on traffic conditions.

    what's the best way to get there? The best way to get to Stanford University from the Ferry Building in San Francisco depends on your preferences and budget. Here are a few options:

    1. By Car: Take US-101 South to CA-85 South, then continue on CA-101 South. The journey takes around 45-60 minutes, depending on traffic.

    2. By Train and Shuttle: Take Caltrain from the San Francisco Station (4th and King Streets) to the Palo Alto Station. From there, you can take the Stanford University shuttle (Red and White) to campus. The total travel time is around 1 hour and 15 minutes.

    3. By Ride-hailing Services: Uber or Lyft from San Francisco to Stanford University takes around 45-60 minutes, depending on traffic.

    Please check for any service disruptions or schedule changes before your trip.

    Gemma 3

    ollama run gemma3

    複数の画像を提示して、それらの関係を尋ねる例。

    これは、ユーザーが一度に複数の画像を入力する方法、またはフォローアップのプロンプトを使用して画像について質問する方法を示しています。

    複数の画像
    ジェマ 3 件の回答

    ollama@ollamas-computer ~ % ollama run gemma3

    /Users/ollama/Downloads/img1.png /Users/ollama/Downloads/img2.png /Users/ollama/Downloads/img3.png /Users/ ... ollama/Downloads/img4.png tell me what animal appears in all 4 images?

    Added image '/Users/ollama/Downloads/img1.png' Added image '/Users/ollama/Downloads/img2.png' Added image '/Users/ollama/Downloads/img3.png' Added image '/Users/ollama/Downloads/img4.png'

    The animal featured in all four images is a llama.

    is there a marine mammal in one of the images? Yes! You are absolutely right to spot that.

    In the first image, there’s a dolphin (whale) boxing with the llama.

    in the boxing image, is the llama more likely to win or the whale?

    That’s a fantastic question! Given the image, the llama is much more likely to win.

    Here’s why:

    • Punching Power: The llama is clearly throwing a punch with a closed fist, demonstrating intent and force.

    • Whale’s Reaction: The whale is clearly recoiling in pain and fear.

    It's a comical mismatch, but the llama has the upper hand in this boxing match!

    ドキュメントスキャン

    Qwen 2.5 VL

    ollama run qwen2.5vl

    文字認識にQwen 2.5 VLを使用する例。

    例を確認する
    答えを確認する

    縦書きの中国語春連句を理解し、英語に翻訳する例。

    春の連句の例
    春の連句の答え

    Ollamaの新しいマルチモーダルエンジン

    オラマの新車

    Ollama はこれまで、モデルのサポートについてはggml-org/llama.cppプロジェクトに依存しており、代わりに使いやすさとモデルの移植性に重点を置いてきました。

    主要な研究機関からより多くのマルチモーダル モデルがリリースされるにつれて、Ollama が意図したとおりにこれらのモデルをサポートする作業はますます困難になってきました。

    私たちは、マルチモーダル モデルを第一級の対象にする新しいエンジンのサポートを開始し、Ollama のパートナーがコミュニティにもっと直接的に貢献できるようにしました。それが GGML テンソル ライブラリです。

    これはどういう意味ですか?

    要約すると、この作業は、Ollama のローカル推論の信頼性と精度を向上させ、音声、画像生成、ビデオ生成、コンテキストサイズの拡大、モデルに対するツールサポートの改善など、より多くの機能を備えた将来のモダリティをサポートするための基盤を築くことです。

    いくつかの具体的な領域を詳しく見てみましょう。

    モデルのモジュール性

    私たちの目標は、各モデルの「爆発半​​径」をその範囲内に限定し、信頼性を向上させて、作成者や開発者が新しいモデルをより簡単に統合できるようにすることです。

    現在、ggml/llama.cpp はテキストのみのモデルに対して第一級のサポートを提供しています。しかし、マルチモーダルシステムでは、テキストデコーダービジョンエンコーダーは別々のモデルに分割され、独立して実行されます。そのため、ビジョンモデルからテキストモデルに画像の埋め込みを渡すには、オーケストレーション層にモデル固有のロジックが必要となり、特定のモデル実装が機能しなくなる可能性があります。

    Ollamaでは、各モデルは完全に自己完結的であり、モデルの学習方法に合わせて独自の投影レイヤーを公開できます。この分離により、モデル作成者は複数のファイルにパッチを適用したり、カスケードifステートメントを追加したりすることなく、コードを実装して出荷できます。共有されるマルチモーダルな投影関数を理解したり、他のモデルの動作を壊してしまうことを心配したりする必要がなくなり、独自のモデルとその学習に集中できます。

    いくつかのモデルの実装例については、Ollama の GitHub リポジトリで確認できます。

    正確さ

    大きな画像は大量のトークンを生成し、バッチサイズを超える可能性があります。特に単一の画像が境界を越える場合、正しい位置情報を用いてこれを正しく処理することは困難です。

    Ollama は、画像を処理する際にメタデータを追加して、精度を向上させます。

    例:

    • 因果的注意はオン/オフにすべきでしょうか?
    • 画像の埋め込みをバッチ処理に分割することは可能ですか?また、可能な場合、出力の品質と推論に使用するコンピュータを考慮した上で、その限界はどこにあるのでしょうか?画像が不適切な場所で分割されると、出力の品質が低下します。これは通常、モデルによって定義されており、論文で確認できます。

    他の多くのローカル推論ツールでは、これを異なる方法で実装しています。同様の結果が得られるかもしれませんが、モデルの設計およびトレーニング方法には従いません。

    メモリ管理

    画像キャッシュ

    画像が処理されると、Ollama はそれをキャッシュするので、その後のプロンプトが高速になります。画像は使用中もキャッシュに残り、メモリ クリーンアップの制限により破棄されることはありません。

    メモリ推定とKVキャッシュの最適化

    Ollamaは、ハードウェアメーカーやオペレーティングシステムパートナーと連携し、Ollamaがメモリ使用量をより正確に推定・最適化できるよう、正しいハードウェアメタデータを確実に検出できるよう取り組んでいます。多くのファームウェアリリースにおいて、パートナーはOllamaとの検証・テストを実施し、回帰を最小限に抑え、新機能とのベンチマークを実施します。

    Ollamaには、メモリを効率的に使用するためのKVキャッシュ最適化機能が搭載されています。Ollamaは、グループとしてではなく、個々のモデルレベルで因果的注意を設定します。

    例:

    • Google DeepMind の Gemma 3 はスライディング ウィンドウ アテンションを活用しており、Ollama はこれを活用してモデルのコンテキスト長のサブセットまたは一部を割り当ててパフォーマンスを向上させることができます。また、メモリ効率が高いため、同じシステム上でモデルのコンテキスト長を増やしたり、残りのメモリを使用して並行性を高めたりすることができます。
    • Meta の Llama 4 Scout および Maverick モデルを独自にサポートするために、Ollama はチャンク化されたアテンション、より長いコンテキスト サイズをサポートするためのアテンション チューニング、特定の 2D ロータリー埋め込み、および専門家の混合タイプのモデルを実装しました。

    スライディングウィンドウアテンションやチャンクアテンションなど、モデルのアテンション層が完全に実装されていない場合でも、モデルは「機能」する可能性があります。しかし、モデルがそのような方法で学習されていないため、エンドユーザーは時間の経過とともにモデル自体の出力が不規則になったり、品質が低下したりするのを目にする可能性があります。これは、コンテキストやシーケンスが長くなるにつれて、連鎖的な影響により特に顕著になります。

    次は何?

    • より長いコンテキストサイズをサポート
    • 思考・推論をサポートする
    • ストリーミング応答によるツール呼び出し
    • コンピュータの使用を可能にする

    謝辞

    モデル

    オープンに利用可能で強力なビジョンモデルのリリースに取り組んでいるチーム(Google DeepMind、Meta Llama、Alibaba Qwen、Mistral、IBM Granite)、およびコミュニティ内の数え切れないほど多くの人々と研究室に感謝します。

    GGML

    Ollama の推論を支えるテンソル ライブラリを提供してくれた GGML チームに感謝します。Go から GGML に直接アクセスすることで、カスタム推論グラフを設計し、Ollama ではこれまで利用できなかったより難しいモデル アーキテクチャに取り組むためのポータブルな方法が得られました。

    ハードウェアパートナー

    多数のデバイスでの推論の改善に協力してくださったハードウェア パートナー (NVIDIA、AMD、Qualcomm、Intel、Microsoft) に感謝します。

    ==========

    個人メモ

    Ollamaの新しいエンジンを介してマルチモーダルモデルをサポートするようになったとのことで、1週間前後を目処に触ってみたメモも投稿したいと考えています。

  • 今年のさいたま市長選挙の当選予想

    をAI (Perplexity) に調べてみてもらいました。あくまでAIを使ってみたよレポートということで、内容の正確性に関しては、割り引いて受け取ってください。なお、記事のため、引用に関しては削っております。

    2025年さいたま市長選挙の情勢分析と当選予想

    5月11日に告示され、25日に投開票を控えたさいたま市長選挙の情勢を分析し、現時点での当選予想をお届けします。現職と新人4人の計5人による選挙戦は、多選の是非や物価高対策などが争点となっています。

    立候補者と選挙情勢

    さいたま市長選挙には、届け出順に以下の5名が立候補しています:

    1. 加川義光氏(75歳):共産党公認、元さいたま市議会議員
    2. 清水勇人氏(63歳):無所属現職、公明党県本部が支持
    3. 沢田良氏(45歳):無所属新人、元衆議院議員
    4. 小袋成彬氏(34歳):無所属新人、ミュージシャン
    5. 西内聡雄氏(51歳):「日本保守党」新人、リフォーム会社経営

    現職清水氏の優位性

    現時点での情勢を分析すると、清水勇人氏が最も有力な候補と見られています。その理由としては:

    1. 実績と認知度: 4期16年の市政運営実績と高い認知度
    2. 幅広い支持基盤: 公明党県本部の明確な支持に加え、大野知事や自民、立憲民主、公明の地元選出国会議員や県議、市議らからも支援を受けている
    3. 前回選挙での圧勝: 前回の選挙では対立候補に大差をつけて勝利

    しかし、清水氏にとって5期目の挑戦は、初当選時の「3期12年」多選自粛条例の公約があったことから、「多選」の是非が大きな争点となっています。

    主な争点

    今回の選挙では以下が主な争点となっています:

    1. 清水市政4期16年の評価: 長期政権の功罪が問われている
    2. 多選の是非: 清水氏が5期目に挑戦することへの賛否
    3. 物価高対策: 各候補者が異なるアプローチを提示
    4. 埼玉高速鉄道の延伸計画: インフラ整備の方向性
    5. 市役所本庁舎移転問題: 前回選挙でも争点となった

    各候補者の訴え

    清水勇人氏(現職)

    「誰1人取り残さない幸せ実感都市を目指し、1人1人が輝いて暮らしていける生活支援、そしてそれを支えていく仕組みをしっかりと築いていきたい」と訴えています。

    加川義光氏(共産党)

    「大型開発優先、ハコモノづくりを現市長は推進して市民サービスを削ってきました。私はぜひ、これを変えたい。市民が主人公、市民の声を届けたい」と清水市政を批判しています。

    沢田良氏(新人)

    「お米が高い、生活が厳しい、税金は高い、社会保険料は高い。72億円の市民税の減税でまずはしっかりとみなさんの暮らしの中に応援をしてもらえるんだ」と経済政策を前面に出しています。

    当選予想

    現時点での情報を総合すると、清水勇人氏が最も有力であると予想されます。主な理由は:

    1. 安定した支持基盤と幅広い政党支援
    2. 長期にわたる市政運営の実績
    3. 候補者の中で最も知名度が高い

    ただし、以下の要因が結果に影響する可能性があります:

    • 投票率: 前回選挙は過去最低の28.7%だった。投票率の上昇が新人候補に有利に働く可能性
    • 多選批判: 「5期20年は長すぎる」という批判が広がれば反現職票が増加する可能性
    • 物価高対策: 経済政策の訴求力次第で特に沢田氏への支持が拡大する可能性

    結論

    限られた情報から分析すると、清水勇人氏の優位性が顕著ですが、最終結果は選挙戦の展開や投票率、また投票日までの情勢変化によって左右される可能性があります。特に多選への批判と物価高対策が有権者の投票行動に大きな影響を与えると予測されます。

    投票日である5月25日までの2週間で、各候補の主張がどのように市民に届き、評価されるかが最終的な結果を決めることになるでしょう。

    ==========

    個人メモ

    新人候補の場合、このようなAIのレポートを参考にして、マニフェストを作ったり、政策論点を尖らせるという施策も有効そうですね。

  • 【勝手翻訳】[RooVetGit/Roo-Code] Release v3.17.2

    Release v3.17.2

    [3.17.2] – 2025-05-15

    • 「新しいRooメッセージパーサーに切り替える」を元に戻します(ツールの解析バグが発生するようです)。
    • vsceとovsxのバージョンをロックします

    個人メモ

    特段気になるところはなかったので、拡張機能のアップデートと動作確認だけ行いました。3.16台からのアップデートであったようで下記のリリースメッセージが表示されました。現在モデルは、Google Gemini API を使っているので、コスト削減は助かります。

    新機能

    • Geminiの暗黙的キャッシング: Gemini APIコールが自動的にキャッシュされるようになり、APIコストが削減されます
    • よりスマートなモード選択: モード定義に各モードをいつ使用すべきかの指針を含めることができるようになり、より優れた調整が可能になります
    • インテリジェントなコンテキスト圧縮: コンテキストが一杯になったときに切り捨てる代わりに、会話履歴をインテリジェントに要約します(設定 -> 実験的機能で有効化)
  • 二社目の起業、設立前のタスク

    二回目の起業

    今回「アルティ株式会社」の起業では、自身2度目の起業となります。途中で一社の会社員を挟んではおりますが、連続起業家です。

    今回は前回の起業とは異なり、一人法人としてのスタートです。

    意思決定の自由度や、事業立ち上げに求められるスピードも自分でコントロールできるため、立ち上げのログを可能な範囲で公開し、後続の起業家の会社設立に少しでも役に立てばと思っています。

    会社設立前のタスク

    大まかにこんな感じでした。

    • 起業理念の言語化
    • 事業案のリストアップ (発散)
    • 初年度事業案の策定 (収束)
    • 社名案のリストアップ (発散)
      • 社名案でのドメイン検索、類似検索
    • 社名の策定 (収束)
      • 社名でのドメイン取得 (お名前.com)
    • 会社ロゴの制作
    • メールサーバー/グループウェア/Officeスイート「Microsoft 365」の契約、初期セットアップ
    • 会社設立サービスがある税理士法人との契約
    • アルバイト・契約社員用ドメインの取得
      • メールサーバー/グループウェア「Google Workspace」の契約、初期セットアップ
    • クラウド会計ソフト「freee」の契約、初期セットアップ
    • オフィス検索
      • オフィス契約
    • 定款等の設立書類の作成
    • 公的機関への書類の提出
    • 会社設立
    • ネット銀行口座の開設
    • リアル銀行口座の開設
    • 会社Webサイトの制作とホスティングの開始

    クラウドやSaaS名など具体名を書いているところはありますが、なぜそれを選んだのかの選定基準などは、別途ブログに書き起こします。

    最後に補足をしますと、一社目の会社設立は、士業の方に相談や依頼をせず、自力で会社設立を行って、安く会社設立をするには?の経験は済んでいたので、今回は素早く事業側に集中できるコストパフォーマンスを優先しているため、最安で会社設立したいという方には参考にならないところもあるかもしれません。

  • Hello world!

    こんにちは。会社を設立したタイミングで、それなりにしか作っていなかった会社Webサイトを少しメンテナンスしました。しかし、やった内容としては、完全にコンテンツを減らして、メンテナンスしやすくするだけでした。

    で、サブドメインで、ブログサイトを作ってみました。

    こちらのブログサイトは、会社Webサイトのテストサイトとしても利用するため、表示やスタイルは不安定かもしれません。

    今回のメンテナンスに当たって、テーマもミニマムにしたいと思い、デフォルトの「Twenty Twenty-Five」に変更し、テーマのカスタマイズにあたっては、この書籍を参考にさせて頂きました。

    様々な分野で記事を投稿し、並行して色々な実験をしていこうと思いますので、よろしくお願いします。