Global Trend Radar
Web: asi.tokyo US web_search 2026-05-02 11:19

このaiエージェントは本当に自己進化できる……見ればわかる ...

元記事を開く →

分析結果

カテゴリ
宇宙
重要度
68
トレンドスコア
32
要約
このAIエージェントは本当に自己進化できる……見ればわかる | ASIに仕事を奪われたい この動画は、Agent Zeroの開発者であるVanが、新しいオープンソースAIエージェントSpace Agentを紹介する内容である。Space Agentはブラウザ上のフロントエンドで動作し、自分自身のUIやウィジェットをその場で生成・変更できる点が特徴である。従来のエージェントがバックエンドやMarkdownファイルの更新に留まりがちだったの
キーワード
このAIエージェントは本当に自己進化できる……見ればわかる | ASIに仕事を奪われたい この動画は、Agent Zeroの開発者であるVanが、新しいオープンソースAIエージェントSpace Agentを紹介する内容である。Space Agentはブラウザ上のフロントエンドで動作し、自分自身のUIやウィジェットをその場で生成・変更できる点が特徴である。従来のエージェントがバックエンドやMarkdownファイルの更新に留まりがちだったのに対し、Space Agentはユーザーとの対話画面そのものを動的に作り替え、ダッシュボード、ノートアプリ、調査ツール、ゲーム、音楽シーケンサーなどを即座に構築できる。さらに、トークン効率、ローカル実行、Gitによるタイムトラベル機能、管理モードによる自己修復性、Codexを活用した開発手法など、AIエージェント時代の新しいOS的発想と開発パラダイムが語られている。 This AI Agent can actually self-evolve… just watch Wanna learn how to code with AI? Go here: me on Instagram - me on Twitt... www.youtube.com 目次 自己更新するAIエージェントという新しいパラダイム 動的UIをその場で作り替える実演 Space Agentの発想とブラウザという選択 Codexを選んだ理由とAI開発の現実 自己更新するAIエージェントという新しいパラダイム これは基本的に、初の自己更新型エージェントです。他のエージェントはMarkdownファイルを更新したり、スキルを作成したりはできます。でも、ユーザーに何をすべきか見せるためのUIを本当に自分で作ることはできません。だからこれは、自己改善し、自己更新するエージェントの新しいパラダイムのようなものです。 そうですね。このエージェントは、コミュニケーションの面ではるかに動的です。エージェントに何かを見せてと伝えると、本当にそれを見せてくれます。 では皆さん、今日はSpace Agentの開発者であり、Agent Zeroの創設者でもあるVanと一緒にいます。そして今日は、まったく新しいプロダクトであるSpace Agentを発表します。 こんにちは、David。 では早速入りましょう。これは何なのか、そして人々がどう使えるのか説明してください。 ここで私がやりたかったのは、エージェントが自分自身のすべてのレイヤーにアクセスできるようにすることでした。これは他のエージェントによくある問題です。たとえば、PythonやNode.jsでどこかのVPS上で動いているエージェントがあり、それとWhatsAppやTelegramを通じてやり取りするとします。そこにはエージェントが動作する複数のレイヤーがありますが、たいていの場合、エージェントが影響を与えられるのはそのうち一つ、あるいは多くても二つだけです。 バックエンドに何かをインストールしたり、そこで何かを実行したりはできます。でも、WhatsApp上で何かを表示する方法そのものを本当に変えることはできません。WhatsAppのインターフェースによって制限されているからです。画像を送ることはできます。メッセージを書くこともできます。でも、基本的にはそれだけですよね。 つまり、ユーザーにとってUIが非常に限られているということですね。 そうです。Web UIを使う場合も同じです。たとえばAgent Zeroには非常に充実したWeb UIがあります。それでも、エージェントがWeb UI上で何か特別なことをしたいと思った場合、バックエンドで画像を生成してフロントエンドに送るか、バックエンドのレベルで自分自身を変更して、それからユーザーにページをリロードしてもらう、といったことが必要になります。 ブラウザからアクセスできるエージェントであっても、結局は実際にそのエージェントが存在しているレイヤーに制限されているわけです。 では、Space Agentの話にすぐ入りましょう。 そうですね。そこがSpace Agentの大きな違いです。Space Agentはフロントエンド側、つまりJavaScriptランタイム上のクライアントサイドで動作しています。だからエージェントは、自分が表示されているページそのものを実際に変化させることができます。 では、どのように使うのか。私たちは主に、Spacesと呼んでいるものの中で使います。 つまり、すみません、少し遮りますが、これは基本的に初の自己更新型エージェントということですね。他のエージェントはMarkdownファイルを更新したり、スキルを作ったりします。でも、何をすべきかユーザーに見せるためのUIを本当に自分で作ることはできません。だからこれは、自己改善し、自己更新するエージェントの新しいパラダイムのようなものです。 そうです。このエージェントは、コミュニケーションの面ではるかに動的です。エージェントに何かを見せてと伝えると、本当にそれを見せてくれます。 たとえば、イメージをつかむための事前構築済みサンプルがいくつかあります。価格、チャート、ニュース、日次ダッシュボードなどです。ブラウザ内でゲームをレンダリングして、それをプレイすることさえできます。つまり、何をしてほしいと伝えても、SpaceとWidgetの仕組みによって、必要に応じて何でもレンダリングできます。 では、多くの人が始めることになるであろう、空のSpaceから始めましょう。 これは空のSpaceです。ユーザーが初めてSpace Agentに入ったときに提示されるものです。もしかすると、ブラウザの中でエージェントが動く最大の利点から話し始めるべきだったかもしれません。その最大の利点とは、実際にブラウザ内でエージェントを動かせることです。 セットアップ不要で、とても簡単ですね。 そうです。Space Agentを試してみたい場合は、私たちのGitHubを見ることができます。そこにはTry live nowという大きなボタンがあります。それを押すと、私たちのWebサイトspace-agent.aiに移動します。そうです。すべてオープンソースで、もちろん無料です。そこで簡単に試せます。 もちろん、今の時代、人々は知らないかもしれませんが、大企業はManosやPerplexity Computerのようなものを出していて、それらは完全にクローズドソースです。だからSpace Agentはオープンソースであるだけでなく、無料で試すこともできます。 そうです。たった2クリックで一時的なゲストアカウントを取得でき、Space Agentを無料で試せます。使いたいLLMプロバイダーのAPIキーを設定するだけです。 では、何か伝えてみましょう。 エージェントのコミュニケーション方法を二つ見せられます。単純に、プラハの天気は何ですか、と聞くことができます。するとチャットで返答するはずです。その後で、それをウィジェットで見せて、と伝えられます。 今はチャットの最小化モードを使っています。なので、エージェントからの回答だけが見えています。履歴を見たい場合は、フルモードに展開できます。 最初は、単にプラハの天気は何ですかと聞いただけなので、エージェントはただ返答しました。そして、それを見せてと伝えると、天気に基づいたウィジェットを生成しました。 文脈として、今どのモデルを動かしているんですか。 Opusです。 なるほど。これは全部カスタムJavaScriptなんですよね。 そうです。エージェントが実際にどう動作しているのか、今見せられます。これはかなり面白い部分です。これはコミュニケーションの生の履歴です。エージェントにはこのように見えています。 ユーザーメッセージがあります。プラハの天気は何ですか。そして、これが生のLLMレスポンスです。フォーマットもJSONもツール呼び出しもありません。これはエージェントが生成するテキストです。 まず、私に向けた返答を生成します。プラハの天気を取得しています、というような内容です。これがチャットバブルや会話履歴に表示される部分です。そして、その後にこの特別なトークンを使います。その後ろに書かれたすべてのJavaScriptが、ブラウザ内で自動的に実行されます。 これは非常にトークン効率が良いということでもありますよね。 そうです。たとえば天気チェックは、最初の返答を含めて97トークンでした。そして、このようなYAML形式でレスポンスを受け取ります。これもトークン効率が良いです。そしてJavaScriptトークンを使わずに、単純に私に返答します。これで会話ループが終了します。 つまり、エージェントはChatGPTのようにプレーンテキストで返答します。返答用の特別なツールはありません。特別なフォーマットも、追加フィールドもありません。エージェントが単に返答する必要がある場合は、そのまま返答します。レスポンスに余分なトークンは一つもありません。 JavaScriptを使う必要がある場合は、これを使います。これは2トークンです。アンダースコアが1トークン、JavaScriptがもう1トークンで、その後にJavaScriptが続きます。ここでもJSONエスケープなど、追加トークンを増やすものは必要ありません。可能な限り効率的です。 そしてウィジェット生成にかかったのは、たった280トークンほどだったことがわかります。 そうですね。最先端モデルがどんどん高価になっている時代です。これは明らかにOpusでも見てきましたが、今ではGPT-5.5 Proでさえ、出力100万トークンあたり180ドルくらいだと思います。人々はトークノミクスをもっと気にするようになるでしょう。どのハーネスやどのエージェントが、最高のモデルを最も効率よく動かせるのかを見るようになるはずです。推論を動かすために毎月何千ドルも使いたくはないですからね。 そうですね。また、ここのシステムプロンプトも非常に面白いです。私はその中の1行も書いていません。最初のプロンプトのアウトラインだけを作り、その後Codexで自動研究を設定して、プロンプトを反復的に改善させました。常に3つの新バージョンを作らせました。一つは少しだけ変更する保守的なもの、一つは中規模の変更、もう一つは完全に大胆なものです。そして、それをテストするための完全なテストフィットもたくさん作らせました。 その後、私も手動でテストしました。このシナリオでは失敗すると伝え、そのシナリオ用の新しいテストケースを作らせ、ハーネスに組み込ませました。数日間、そのように反復していました。これはたぶんバージョン250くらいです。どんどん最適化し続け、私たちのケースでトークン効率が高く信頼できるようになりました。 では、Space Agentでできることをもう少し見せましょう。 完全な例を作ることもできますし、完全なユースケースを作ることもできます。ただ、まずは今日私がやっていたことから始めたいです。ちょっとしたショーケースです。 まずノートアプリから始めました。一つのSpace上に複数のウィジェットを作った場合、それらがどう協調できるかを見たかったのです。ここにはリスト用のものが一つあります。 ちなみに、Spaceは非常に動的です。すべての要素をリサイズできますし、動かすことも、並べ替えることもできます。エージェントにそれをやってもらうこともできます。このグリッドは実質的にほぼ無限です。だからエージェントは巨大なダッシュボードや、大規模なデータビューを作ることができます。 これがわかっていない人向けに言うと、つまり、どんなユースケースでも、自分が欲しいUIをゼロから設計できるということです。アプリをゼロからコードで書き、サーバーにホストする必要はありません。Space Agentはブラウザ上で動き、これらはすべて数秒分のJavaScriptにすぎません。 私が考える未来のOSの姿は、アプリや組み込みインターフェースがほとんど存在しない世界です。たとえばエージェントに、メールを確認して、優先度順に並べて表示して、と伝えれば、エージェントはメール一覧のウィンドウを描画できます。そうであれば、並べ替え用のボタンなどなぜ必要なのでしょうか。何かを移動したり、削除したり、返信したりするボタンがなぜ必要なのでしょうか。エージェントに伝えれば、画面をその場で書き換えられるのです。 最初の例はノートアプリでしたが、本当にきちんとしたノートアプリを作ってくれました。フォルダを管理し、名前を変更し、編集できます。ノートを視覚的に編集できますし、必要ならMarkdownビューに切り替えることもできます。コピー&ペースト、画像、添付ファイルなどにも対応しています。私の基準では、完全に動作するノートアプリです。 そしてローカルブラウザのもう一つの利点は、データが自分のものであり続けることです。どこかに送信する必要はありません。もちろん無料版を使っている場合、バックエンドはホストされています。ですから、オープンソースのリポジトリやネイティブアプリを使うこともできます。とはいえ、すべてがブラウザ内にあることのもう一つの利点です。 そうですね。 仕組みを簡単に説明できます。ブラウザ単体では、ホストOS上のファイルを管理できません。これはブラウザのセキュリティ上の制限です。そこで、Node.jsで非常に薄いバックエンド層を用意し、ユーザー権限、ユーザーアカウント、ファイルストレージを管理しています。 ネイティブアプリをダウンロードすると、これらはすべて単一のアプリにバンドルされます。つまり、私たちのサーバーなどとは一切通信しません。バックエンド層もフロントエンド層も、すべて一つのアプリケーションに組み込まれています。 自分でホストする場合は、ローカルマシン上でもVPS上でも、どこかにホストして、ブラウザから接続します。その場合、両方を同じマシンで動かすこともできますし、バックエンドをどこかのVPSで動かすこともできます。 これにより、複数ユーザーを持つ選択肢も生まれます。Space Agentは最初から、同じサーバー上で多数のユーザーが動作することに最適化されています。また、ユーザーやグループの権限管理、ユーザーグループ間で共有される機能なども含まれています。 そして三つ目の方法が私たちのデモサイトです。この場合、バックエンドは私たちのサーバー上にあります。ただし、永続化したいものに使うことは誰にも勧めません。デモサーバーですから、ファイルはいずれ削除されます。私の一番のおすすめは、ネイティブアプリをダウンロードすることです。すべてがローカルに残ります。すべて自分のマシン上にあります。 今日もう一つ試したのは、監視ダッシュボードです。ランダムな公開IPカメラをいくつか選びました。どうやら全部アメリカにあるようです。でも、自宅や所有物など、監視したいカメラがあるなら、エージェントに伝えるだけで、このようなダッシュボードを簡単に作れます。 ちなみに文脈として、これを作るのにどれくらい時間がかかったんですか。人によっては、これは長くかかると思うかもしれませんし。 これは速かったです。実際に何かが映っている適切なカメラを選ぶのに数分かかりました。エージェントは最初、静止しているように見えるカメラをランダムに選んだので。でも、このもの自体は、たぶん1分か2分くらいで生成されました。 なるほど。 ノートアプリはもう少し時間がかかりました。指示が多かったですし、何度か編集もしました。名前変更をもっとシームレスにしたかったですし、Markdownではなく、見たまま編集できるエディタをデフォルトにしたかったのです。だからかなり編集しました。たぶん10分くらいかかりました。 そして、こうしたダッシュボードこそ、Space Agentが本当に得意とするものにつながっています。それは他のものをオーケストレーションすることです。UIが非常に動的になれるため、他のシステムを監視したり、制御したりするための完璧なハーネスになります。 たとえば、どこかで10個の他のエージェントが動いていて、それらすべてを一つのダッシュボードに接続し、その上に別のエージェントを置いて、あなたの代わりにそれらと通信させることができます。これは本当に多くの時間を節約できます。 ここでは、Space Agentを、私のローカルマシン上で動いているAgent Zeroインスタンスに接続しました。Space Agentと同じく、このマシン上で動いています。そしてここで二つのことをしました。 エージェントに、Agent Zero APIを使って通信する新しいチャットインターフェースを作るよう伝えました。だからここでhiと送ると、Dockerコンテナ内のAgent Zeroが応答するのを待ち、そのメッセージを私に返します。 そしてこれは実際には埋め込みブラウザウィンドウです。つまり、完全なAgent ZeroのWeb UIです。APIや近道は一切使っていません。これは完全なブラウザであり、エージェントは今でもブラウザとして制御できます。実際、ブラウザ制御は本当に得意です。 だから、Agent Zeroの設定を確認して、アップデートがあるか見て、と言えます。 つまり、これはおそらく最速のブラウザ操作でもあるわけですね。 そうですね。これがどれほどよく、どれほど速く動くのか、実は私も驚きました。何かを開発するとき、私はいつも最小構成から始めます。実行に必要な非常に基本的なものだけを用意し、それがどこで失敗するかを見ます。そして、それを補うために少しずつ追加していきます。 通常、あらゆるものの最初のプロトタイプは非常に速いです。中に何も入っていないからです。すべてが非常にシンプルで、速く動作します。でも、その後ここで失敗する、あそこで失敗する、メモリが必要だ、などとわかってきます。そしていろいろ追加し始め、最終的には必然的に遅くなります。 でもここでは、非常に驚いたことに、基本的に何も追加する必要がありませんでした。最初からそれほどよく動いたのです。 これがどう動くかというと、私たちはページをエージェント向けに、こういう形式へ転写しています。エージェントはページのHTMLを見ていません。完全なDOMも見ていません。すべてが参照形式に転写されます。たとえば、ボタンとその番号、ここにテキストがあり、これはエラー用のボタン51です、というようにです。 つまり、エージェントは51番のキャンセルボタンがあり、それがエラーとして赤色にスタイルされているとわかります。入力欄も見えますし、スライダーも見えます。インタラクティブなものは何でも見えます。ページ上のすべてのテキストも見えます。 そのため、ボタンをクリックしたいときは、click button 25のようなコマンドを送るだけです。そしてページの新しい転写を受け取り、何が変わったかについての情報を得ます。おそらくここで見られます。はい、これがエージェントの動作です。19トークンだけで、self updateを開いています、space browser click browser number one button number 47と私に伝えています。それだけです。そしてこのようなレスポンスを得ます。 これはあなたが最適化したんですか。それとも、これも別の自動リサーチですか。 一部は両方です。でも、これは主に自分でやりました。インターネット上でHTMLをMarkdownに転写するライブラリを見つけ、それをAIの助けを借りて大幅に編集しました。すべてのインタラクティブ要素に参照番号が割り当てられ、テキストはそのままテキストとして残る形式を生成するようにしたのです。 その後、反復を続けました。多くの最適化を行い、多くのエッジケースを解決する必要がありました。Webという技術は、一見それほど難しそうには見えないかもしれません。でも、Webサイトをクロールするのは非常に難しいです。iframeやshadow DOMのように、自然に閉じられているものなど、非常に多くの異なる要素がネストされています。 shadow DOMのようなものは、そもそもスクレイピングを防ぐために作られています。だから、私たちはブラウザレンダラー自体にいくつかのハックを注入する必要さえありました。Webサイト上のすべてのものを自動的に開き、スクレイプ可能にするためです。 つまり、かなり多くの作業がありました。一部はAI、一部は私です。でも最終的には、とても見事に動いています。 見てわかるように、今は13,600トークンです。つまり、追加したのはさらに2,000トークンくらいだけです。 ああ、2,000ですね。 そうです。最初からだと4,000ですが、その前にSpaceで何かをしました。これは、もう一つの仕組みのおかげです。私たちはこのようなものを履歴に保持しません。ページの状態が過去のものになったら、もう必要ないからです。 混乱しますからね。 そうです。混乱しますし、大量のトークンも消費します。これはたぶん2,000トークンくらいあります。そこで私たちは、このtransient spaceを使っています。つまり頻繁に変化するコンテキストは、常にプロンプトの最後、最後のキャッシュブレークポイントの後ろに置きます。そうするとキャッシュされず、会話の各ターンで置き換えられます。 エージェントがウィジェットを編集するときは、常にウィジェットのソースコードの最後の状態を読み込み、それをtransientに置きます。そうすれば、エージェントは自分が扱っているウィジェットのソースコードを常に見られます。でも、それが履歴に残って、以降のすべてのターンでトークンを消費し続けることはありません。 まさにそこが複利的に効いてくるところです。エージェントにページを見せるために2,000トークンを読み込むこと自体は問題ではありません。でも、それを履歴に残すと、2,000トークンを永久に追加したことになります。そしてエージェントが5ページクリックすれば、会話の各ターンに10,000トークンを追加したことになります。 そうですね。 そして削除し始めると、キャッシュが壊れます。それも別の問題です。 そうですね。履歴のどこかを触るとキャッシュが無効になり、またより多く支払うことになります。だからこの方法で、価格を、つまりトークン消費を可能な限り低く保ち、最高の効率と長く持続するコンテキストウィンドウを維持しています。 動的UIをその場で作り替える実演 もっとライブでの変更をやるべきだと思います。どれだけ簡単に更新できるかを、人々は本当に見る必要があります。カスタムUI要素やカスタムフロントエンドを作るだけでなく、ページやチャットの組み込み部分も変更できるということです。だから、ゼロから始めてもいいですし、事前構築済みのものを一つ選んで修正してもいいです。お任せします。 そうですね、やりましょう。研究用のものをやってみるのがいいかもしれません。これもかなり面白いです。今日作ったものです。エージェントが、エージェントへ直接戻るように接続されたUIを作れるかを見たかったのです。つまり、UIがエージェントと通信でき、エージェントもUIと通信できるかを確認したかったのです。 それで、この研究ハーネスを作りました。すでにAgent ZeroとGPT-5.5でテストしました。Space Agentがここで行ったのは、研究入力ウィジェットと研究出力ウィジェットを作成することです。そして、このSpace用の特別な指示も作りました。 これももう一つの特徴です。各Spaceは、そのSpace用のカスタム指示を持つことができます。

類似記事(ベクトル近傍)