Alti blog

(実験サイトでのブログなのでサイトが落ちてたらごめんなさい)

【勝手翻訳】2025年6月に注目すべき O’Reilly Radar Trends

AIベンダーは5月の大半をAI関連の発表に費やし、ほぼすべてのカテゴリーに進出しました。しかし、注目すべきニュースはこれだけではありません。医師たちは、CRISPRを用いて、これまで治療不可能だった希少疾患を持つ赤ちゃんのDNAを修正しました。この治療が何年も効果があったかどうかは分かりませんが、赤ちゃんは順調に成長しているようです。また、あるスタートアップ企業が究極のニューラルネットワークを販売しています。これは生きた(培養された)ニューロンから作られ、ニューロンを数週間稼働させ続ける生命維持装置も備えています。これが本当に実現するかどうかはまだ分かりませんが、それでもAlphaGoにいつ勝てるようになるのか知りたいものです。

人工知能

  • Anthropicは、Claude 4 シリーズの最初の2つのモデル 、 SonnetOpus をリリースしました。これらはハイブリッド推論モデルであり、ユーザーが「思考」に費やす時間を制御できます。ツールを並行して使用したり、(ローカルファイルへのアクセスが与えられた場合)一連のリクエストを通じて情報を記憶したりできます。
  • 新しいClaude 4モデルには驚くべき「エージェント的」特性があります。違法行為をしていると思われる場合は、法執行機関に通報 される可能性があります。バックドアなんて必要ありませんよね?私たちの知る限り、この行動はAnthropicのアライメントに関する研究でのみ確認されています。しかし、この行動を排除するようにモデルをトレーニングすれば、独自の法的結果が生じる可能性も考えられます。
  • ChatGPTは4月以降、 動作をカスタマイズするために すべての会話を追跡しています 。Simon Willisonが詳細な議論 をしています。興味深い可能性はありますが、全体としてはこれは機能ではなく問題です。
  • Stitch は、LLMを用いてユーザーインターフェースの設計と生成を支援する実験です。UIのアイデアを自然言語で記述し、ワイヤーフレームを生成・反復処理し、最終的にコードを生成したり、デザインをFigmaに貼り付けたりすることができます。
  • GoogleのDeepMindは 、Geminiで、画像生成によく使われる拡散モデルを 実験 しています。DeepMindによると、拡散モデルはより高速で、ユーザーの制御性を高めることができるとのことです。このモデルは一般公開されていませんが、ウェイティングリストに登録されています。
  • Mistralは、エージェントによるコーディングタスク向けに最適化された新しい言語モデル 「Devstral」 を発表しました 。オープンソースであり、十分な性能を備えたラップトップでも実行できるほど小型(24バイト)です。これは、単なるコード生成と実際のソフトウェア開発との間のギャップを埋めることを目指しています。
  • Meta は Llama スタートアップ プログラム を発表しました 。このプログラムでは、Llama チームからの技術サポートの提供に加え、ホストされた Llama サービスの使用料としてスタートアップに月額最大 6,000 ドルを支給します。
  • LangChainは、AIを搭載したインテリジェントエージェントを構築するためのノーコードプラットフォームであるOpen Agent Platform (OAP)を発表しました。OAPはオープンソースであり、GitHubで公開されています。オンラインで試用することも可能です。
  • Googleは、Gemmaシリーズの新しいマルチモーダルモデルであるGemma 3nを発表しました。Gemma 3nはモバイルデバイス向けに特別に設計されており、レイヤーごとの埋め込みと呼ばれる手法を用いることで、8Bのパラメータを持つモデルで必要なメモリを3GBに削減しています。
  • アラブ首長国連邦は、法律の起草にAIを活用する予定です。ブルース・シュナイアー氏は優れた議論 を投稿しています。AIを用いて法律を制定することは、新しいことでも、必ずしも反人間的なことでもない。AIは、権力の集中ではなく、人々に力を与えるために設計され得る(そして、実際に設計されてきた)のだ。
  • DeepMind はAlphaEvolveを構築しました。これは、進化的アプローチを用いて新しいアルゴリズムを作成し、既存のアルゴリズムを改良する、新しい汎用モデルです。「これはモデルなのか?それともエージェントなのか?」と疑問に思うのは私たちだけではありません。AlphaEvolveは一般公開されていません。
  • しばらくの間、xAIのGrok LLMは、ほぼすべての会話を 白人虐殺に関する会話 に変えていました。Grokが奇妙で望ましくない出力を出すのは今回が初めてではありません。「公平」というより、イーロン・マスクの執着を反映しているように見えます。
  • INTELLECT-2 は、グローバル分散システム を介してトレーニングされた 32B モデルです。グローバル分散システムとは、必要に応じてネットワークに参加したり離脱したりしながら、自発的に時間を提供するコンピューターのネットワークです。PRIME-RL は、非同期分散強化学習のトレーニング フレームワークであり、このプロセスを調整しました。INTELLECT-2 は、コードとデータを含めて オープンソース です。
  • 人間には簡単だがAIには難しいこと:LegoGPTは、テキストプロンプトに基づいてレゴ構造物を設計できます。この構造物は実際のレゴピースで組み立てられ、組み立てると自立します。あとはロボットが組み立てるだけです。
  • Microsoftは、Phi-4モデルの推論バージョンを発表しました。推論バージョン、ミニ推論バージョン、推論プラスバージョンの3種類があります。これらのモデルはいずれも比較的小規模で、推論バージョンは140億個のパラメータ、ミニ推論バージョンはわずか38億個のパラメータです。
  • GoogleはGemini 2.5 Pro Preview(I/O Edition)をリリースしました。コード生成時のパフォーマンスが向上し、YouTube動画からアプリケーションを生成できるビデオ・トゥ・コード機能も搭載されています。
  • OpenAI の命名規則 (またはその欠如) に困惑している場合は、同社が 投稿 しているすべてのモデルの役立つ概要と、各モデルが適切な場合の推奨事項を参照してください。
  • 新しい自動翻訳システムは、複数の話者を追跡し、複数の言語を同時に翻訳できます。1つのモデルが個々の話者の位置と声の特徴を追跡し、別のモデルが翻訳を行います。
  • タイトルがすべてを物語っています。「従業員をAIに置き換えた英国企業の半数以上が、その決定を後悔している」。しかし、彼らは解雇された従業員を再雇用しているのでしょうか?
  • Gemini 2.0 Flash イメージ生成が パブリック プレビューに追加されました
  • Mistralは、チャットベースのAI向けエンタープライズソリューション「Le Chat Enterprise」を 発表 しました。このチャットはオンプレミスで実行でき、企業のドキュメント、データソース、その他のツールに接続できます。
  • セマンティックキャッシング は、AIのパフォーマンス向上とコスト削減を実現する手法です。基本的には、プロンプトとレスポンスをキャッシュし、プロンプトが類似している場合はキャッシュからレスポンスを返します。
  • AnthropicはClaude Integrations を発表しました。IntegrationsはMCPを使用してClaudeを既存のアプリやサービスに接続します。サポートされている統合には、PayPalなどのコンシューマーアプリケーション、Confluenceなどのツール、Cloudflareなどのプロバイダーが含まれます。
  • GoogleはMusic AI Sandboxを アップデート し、新しいモデルと新機能を追加しました。Sunoなどの音楽ジェネレータとは異なり、Music AI Sandboxはミュージシャンが音楽クリップの編集、拡張、生成を行うためのクリエイティブツールとして設計されています。
  • 動画のディープフェイクに心拍音を再現。ディープフェイクを見分ける方法の一つとして、心拍音によって引き起こされる肌の色の微妙な変化を捉えるという手法がありました。しかし、ディープフェイクは脈拍を模倣することで、この手法を回避できるようになりました。
  • Googleは、イルカの発声を学習させた言語モデル DolphinGemma を開発しました。このモデルは一連の音の中から次に何が起こるかを予測できますが、イルカが何を言っているのかはまだ分かりません。このモデルは学習に役立つでしょう。
  • Memex は、Claude Code スタイルを踏襲したエージェンティックコーディング向けに設計された新しいアプリケーションです。Web ベースのツールとは異なり、Memex はローカルで実行されます。
  • SHADES データセットは、モデル開発者が有害なステレオタイプやその他の差別的行動を発見し、排除するのに役立つように設計されています。SHADES は多言語対応で、モデルがステレオタイプにどのように反応するかを観察することで構築されました。このデータセットは Hugging Face から入手できます。

プログラミング

  • 開発チームの生産性に『AI』コーディングアシスタントよりも大きな影響を与える5つの退屈なこと」:タイトルがすべてを物語っている、もう一つの例です。一読の価値ありです。
  • Microsoftは、Windows Subsystem for Linux (WSL)を オープンソース化 しました。
  • 2つの新しいテキストエディターが登場しました。Windowsに独自のコマンドラインテキストエディターが登場。これはオープンソースで、Rustで書かれています。 Zed は新しい「エージェント型」エディタです。エージェント型エディタと IDE の違いは明確ではありません。
  • Jules は、Google がエージェント対応コーディング分野に参入したツールです。Gemini を使用し、「Jules がやりたくないコーディング作業をやってくれる」と謳っています。もちろん、GitHub との統合、クラウド VM でのコードテスト、テストの作成と実行、そしてその根拠の表示も行えます。
  • Terraform には MCP サーバー があります。
  • ハードウェア記述言語は難解で分かりにくく、現在使用されている高水準言語とはほとんど似ていません。Spade は、最新の高水準プログラミング言語を念頭に設計された新しい HDL で、Rust の影響を強く受けています。
  • OpenAIは、プログラミングに特化したトレーニングを受けたo3の新バージョンをベースにしたコーディングエージェント、Codexを リリース しました。Gitリポジトリからコードベースをプルし、新しいコードを書き、プルリクエストを生成し、サンドボックスを使用してテストを行うことができます。Proサブスクリプションメンバーのみが利用できます。
  • LLMはコード生成時に、過剰なコードを書き、冗長で過剰なエンジニアリングを優先する傾向があります。Fred Benenson氏がこの問題について 議論 し、いくつかの解決策を提案しています。
  • Nix は、サプライチェーンのセキュリティを大幅に向上させることができる依存関係管理ツールです。その目標は、ソフトウェアのビルドに使用されたソースの整合性を証明し、ビルドで使用されたすべてのソースとツールチェーンを追跡し、各リリースで使用されたソースをエクスポートしてサードパーティの監査を容易にすることです。
  • OpenAIは、ChatGPTのディープリサーチ機能でGitHub上のコードを調査できるようにするコネクタを 発表 しました。ディープリサーチはレガシーコードベースでどのように機能するのでしょうか?今後の展開に注目です。
  • Redisがオープンソースライセンスに 復帰 しました!Redis v8は AGPL v3 ライセンスの対象です。
  • JavaScript で 明示的なリソース管理 を行う提案があります。usingawait 宣言により、リソースがスコープ外になった際に確実に破棄されます。
  • DeepWiki は、「GitHub リポジトリを網羅した無料百科事典」です。リポジトリの概要は (どうやら) AI によって生成されたものと思われるので、リポジトリの使い方に関するチャットボットも利用できます。
  • 「コード臭」カタログ は、素晴らしく便利なツールです。ウェブサイトの見た目は少しぎこちないですが、検索機能があり、ソフトウェアのアンチパターンの詳細な説明、例、解決策が掲載されています。
  • ターミナルコマンドを覚えていない方のために:Zevは、AI(OpenAI、Google Gemini、Azure OpenAI、またはOllama)を使用して、実行したい操作を口頭で説明し、それをコマンドに変換するコマンドラインツールです。コマンドはコピー/ペーストするか、メニューから実行できます。
  • Dockerは、大規模な言語モデルをローカルで実行するための別の方法であるDocker Model Runnerを導入しました。モデルの実行はコンテナの実行と同じくらい簡単です。

Web

  • CSS Minecraft は、ブラウザで動作する Minecraft のクローンで、HTML と CSS のみで実装されています。JavaScript は一切使用されていません。仕組み についてはこちらをご覧ください。
  • Microsoft は、ウェブサイトに MCP サポートを簡単に統合できるプロジェクトである NLWeb を発表しました。これにより、あらゆるウェブサイトが AI アプリになることができます。
  • 10Web は、eコマースサイトを構築するためのノーコード生成型 AI アプリケーションを開発しました。特徴的なのは、WordPressで実行可能なコードを生成し、その機能をプロンプトにエクスポートすることで、顧客が新しいサイトを「ホワイトラベル化」できる点です。
  • もしブラウザにエージェントAIが完全に統合されていたらどうでしょう?アドオンではなく、最初からAIを中心に構築されていたらどうでしょう?Strawberry のようなブラウザになるかもしれません。
  • Chromeの今後の機能では、デバイス上のAIを使用してテクニカルサポート詐欺を検出 します。
  • Web開発者を対象とした 調査 によると、ほとんどの開発者がAIを活用しているものの、AIによって生成されるコードは全体の25%未満です。大多数(76%)が、AIによって生成されたコードの半分以上は、使用前にリファクタリングする必要があると回答しています。

セキュリティ

  • セキュアメッセージングアプリケーションSignalに、MicrosoftのRecallによるアプリのスクリーンショット撮影を阻止する機能が 追加 されました。これは、Windowsに組み込まれたDRMを利用してアプリごとにスクリーンショットを無効化する興味深いハックです。
  • 良性のボットやエージェントと悪意のあるボットやエージェントをどのように区別するのでしょうか?Cloudflareは暗号化技術、具体的には HTTPメッセージ署名 標準の使用を提案しています。OpenAIはすでにこれを行っています。
  • セキュリティにおける重要なトレンドとして、正規のセキュリティツールを攻撃の武器として使用する ことが挙げられます。SSH-SnakeとVShellは、レッドチームツールが武器として使用される例としてよく挙げられます。 (VShellの開発者は削除しましたが、依然として流通しています。)
  • 悪意のある Chrome拡張機能 がローカルで実行されているMCPサーバーと通信し、そこからシステムを乗っ取る可能性があります。
  • ある研究グループが、マルウェアの機能を自身に利用 というマルウェアに対する防御策を開発しました。これは、ボットネットが構築される前に排除するための有望な手法です。

量子コンピューティング

生物学

  • 極めて稀な遺伝性疾患を持つ赤ちゃんの治療 に、遺伝子編集が用いられました 。CRISPRを用いて、赤ちゃんのDNAの一文字を修正する薬が開発されました。これは究極の個別化医療であり、この薬は二度と使用されることはないかもしれません。
  • Cortical Cloudは 、プログラム可能な生物学的コンピュータであると主張しています。実験室で培養されたニューロン、デジタルインターフェース、そして生命維持装置が箱の中に詰まっています。いつチェスができるようになるのでしょうか?

仮想現実と拡張現実

  • Googleグラスが復活? GoogleはWarby Parkerとの提携を発表し、AIを搭載したAndroid XR AR/VR対応グラスを開発します。このAIは(Android)スマートフォン上で動作します。

——–

個人メモ

再注目は、Claude Sonnet 4 ですね。プログラミング支援のAI利用のAPIは順次検証しながら切り替えていっています。 今回のレポートには無かったですが、日本では Claude Sonnet 4 と同時期にリリースされた、Claude Code + Max プランでの「(ほぼ)定額CLI型コーディング支援」に注目が集まっているので、こちらもキャッチアップしておきたいですね。