AIには3つの基本要素があります:コンピューティングパワー、データ、およびアルゴリズム。
これらのうち、コンピューティングパワーの重要性は最も直感的です。そのため、AIモデルのパフォーマンス向上の最大のボトルネックとなるデータがコンピューティングパワーを取って代わっていることは、Scale AIの創設者であるAlex Wangがポッドキャストで強調したように、一時的にナビダの時価総額を上回り、マイクロソフトとAppleを抜いて世界で最も価値のある企業になりました。
AIはデータに対する渇望が止まらず、アクセス可能なインターネットデータリソースは枯渇しつつある。モデルの性能をさらに向上させるには、より多くの高品質なデータに依存する必要がある。企業内部には価値のあるデータが多数あるが、これらの非構造化データをAIトレーニングに実際に使用するには、精密な注釈が必要である。そして、データ注釈はリソース集約型の作業であり、長年、AI産業オンチェーンで最も辛く、最も謙遜な部分と見なされてきた。
しかし、データラベリング分野に先駆けて参入した戦略により、Scale AI は今年5月の最新の資金調達で138億ドルの評価額を獲得し、多くの有名な大手モデル企業を上回りました。この成果は間違いなく「データラベリングはただの肉体労働」という偏見を打ち破りました。
分散化コンピューティングパワーの多くのプロジェクトがNVIDIAに挑戦するように、暗号化AIプロジェクトのSapien AIも、今年4月に500万ドルのシードラウンドを完了したばかりで、Scale AIに挑戦しようとしています。それは長い尾市場に参入するために分散化された方法を採用するだけでなく、世界最大の人工データ注釈ネットワークを構築する計画も立てています。
最近、BlockBeatsはSapien AIの共同創設者兼COOであるTrevor Koverkoにインタビューしました。Polymath、Polymesh、Tokens.comなどの多くの成功したプロジェクトの共同創設者として、TrevorはSapien AIを設立する前に豊富な起業経験を積んでいます。インタビューでは、Sapien AIを設立した経緯、Sapien AIとScale AIの非競争戦略、およびブロックチェーンゲームからビジネスメカニズムを設計する際の独自の洞察について深く共有しています。
Sapien AI プロジェクト体験ウェブサイト:game.sapien.io
#トロント、イノベーションの肥沃な土地、暗号とAIコミュニティの創造的な結晶化
BlockBeats: LinkedInから、あなたが以前にNHLのニューヨーク・レンジャーズでプレーしていたことを知りました。元プロアイスホッケー選手として、どのようにして暗号化業界に転身しましたか?
**トレバー:**私のキャリアでは、さまざまな役割を試してきました。アイスホッケーは私の最初の仕事でした。カナダでは、アイスホッケーは私たちの文化の非常に重要な一部です。子供の頃にアイスホッケーをしないと、ほとんど異端者と見なされます。それが私の成長の重要な要素でした。チームワークと高レベルの競争から多くを学び、それらの経験は今も私に影響を与えています。
私のアイスホッケーのキャリアが終わった後、私はビジネスに従事し始めました。実際、私は一時期アジアで過ごしました。私は中国、具体的には中国東北部の大連に住んでいました。私のスポーツキャリアと中国での経験は、私の成長過程で非常に重要な2つの要素です。
私はトロントの暗号化エコシステムで育ちました。BTCコミュニティには若い頃から参加しており、その頃はまだイーサリアムがリリースされていませんでした。私たちはよく集まって友人と交流し、Vitalikにも出会いました。当時彼は《Bitcoin Magazine》の編集者でした。
後に、Vitalikがホワイトペーパーを公開したとき、BTCコミュニティは徐々にETHコミュニティに変わっていきました。それは情熱の燃える時代でした。私は2017年から2018年にかけて自分のRWAプロジェクトPolymathを立ち上げました。当時、この分野にはまだ明確な分類がなく、私たちはそれを「セキュリティトークン」と呼んでいました。これは私が暗号化分野での初めての重要なプロジェクトでした。私たちはこのプロジェクトで資金調達からETHコミュニティでのアプリの展開まで、あらゆる面で作業を行いました。
最終的に、私たちは自分たちのLayer 1ブロックチェーンを構築しましたが、これはより大きな挑戦でした。幸運なことに、私たちはCharles Hoskinsonのような非常に賢い人物がプロトコルのアーキテクトとして担当してくれました。今日、このブロックチェーンは独自のブランドであるPolymeshとして発展しました。それは最初で最大のRWAネットワークの1つであり、Layer 1のレベルでもあります。今は私はただのコミュニティメンバーです。完全に分散化されているため、私はこのネットワークを遠くからサポートしています。採用率に関しては非常に良いパフォーマンスを発揮しており、RWAも徐々にエキサイティングなエコシステムになっています。
BlockBeats: どのようなきっかけで、RWAからAIに興味を持つようになり、Sapien AIを設立することを決めましたか?
**Trevor:**Polymeshの日常運営が分散化された後、私はAIに興味を持ち始めました。トロントには非常に強力なAIテクノロジーコミュニティがあり、多くの現代のAIの初期アーキテクチャはトロント大学の研究者によって作成されています。例えば、「デプス学習の父」と呼ばれるGeoffrey Hintonや、OpenAIの元首席科学者であるIlya Sutskeverなどです。
左から1人目:イリヤ・スツケヴァー。 右から1人目:ジェフリー・ヒントン
私自身はAIの使用に非常に興味があり、同時にウォータールー大学には機械学習に従事する賢いフレンがいます。私は徐々にAIの技術スタック、動作方法、トレーニングデータの生成プロセス、および人間がそのトレーニングデータに参加する方法に興味を持つようになりました。これは非常に自然な学習過程です。
最初、私は企業を設立する野心はありませんでしたが、AIと機械学習の分野に6ヶ月ほど没頭した後、ウォータールー大学の機械学習修士課程の指導教官の指導のもと、私たちは興味深い領域で問題を発見し、それらの問題を解決する機会を見いだしました。最終的に、私たちはSapienという会社を設立しました。
BlockBeats:Sapien AIの理解がない人々に、このプロジェクトの中核的な使命を紹介できますか?現在のAI業界において、データ注釈サービスの重要性はどこに表れていますか?
**トレバー:**データのタグ付けは非常に重要です。これは ChatGPT などの主要な大規模言語モデルの成功の主な理由の1つでもあります。なぜなら、それらは最初のバッチの産業規模の人間のデータアノテーターがモデルのデータセットを豊かにするために使用されたからです。
時は今日に至っても、データラベリングの重要性はますます高まっています。なぜなら、これらのモデル間の競争が非常に激しいためであり、モデルの性能を向上させる最良の方法は、データセットにより多くの専門家の人間によるデータラベリングを追加することです。
データ処理はサプライチェーンと考えています:最初は元のデータであり、次にそれを構造化し、整理する必要があります。構造化が完了したら、そのデータをトレーニングできます。トレーニングが完了したら、推論を実行できます。要するに、これは人工知能の背景でデータを徐々に付加価値化するプロセスです。
他は他の業界と同様に、私たちはAI業界の細分化を見始めています。さまざまな垂直領域が現れており、特定のプロセスのステップで優れたパフォーマンスを発揮している企業もあります。私にとって最も興味深いのは、第2のステップであるデータの構造化とトレーニングの準備です。これは私が最も興味を持っている部分です。
ロングテール市場をターゲットにした分散型のScale AI
**BlockBeats:Sapien AIは、Scale AIのような従来のWeb2企業と何が違うのですか? **
**トレバー:**いい質問ですね。私たちはScaleを非常に高く評価しています。彼らは素晴らしい会社であり、共同創業者たちも非常に優れています。彼らの一人とは知り合いです。彼らは世界最大のAI企業の1つであり、収入、時価総額、利用量のいずれから見てもその通りです。01928374656574839201
私たちの違いは、私たちが第一原理から出発し、2024年にどのような現代的なデータ注釈テクノロジースタックがあるべきかを考えていることです。私たちは必ずしもScaleでカバーされているユースケースを追求しているわけではありません。私たちの目標は中堅市場とロングテール市場です。
私たちは、中級市場のオープンソースモデル、企業モデル、または週末の研究者であるかどうかに関係なく、誰もがデータセットの人間のフィードバックを簡単に取得できるよう努力しています。モデルのパフォーマンスを向上させるためには、柔軟な人間のフィードバックが必要な場合、ぜひご相談ください。
私たちは、より分散的あるいは分散化された Scale AI のバージョンと考えることができます。これは、私たちのアノテーターがより広範囲にわたっていることを意味し、特定の場所に限定されず、どこでもリモートで働くことができます。ある程度、この分散性により、多様性は多様性を実現するだけでなく、データトレーニングの品質を向上させることができるため、データアノテーションの品質向上につながる可能性があります。
たとえば、同じ背景を持つ一群の人々にデータを注釈するような施設で作業する場合、偏見や文化的なバイアスのあるデータが生成される可能性が非常に高いです。そのため、私たちは最初から多様性と堅牢性を追求しています。より分散化することで、より高品質な注釈者を得ることもできます。フィリピンの特定の場所で作業する必要がある場合、吸引できる人材は限られてしまいますが、リモート優先の方法を採用することで、どこからでも注釈者を見つけることができます。
私はScaleがこれらのことをしていないと言っているのではありませんが、私たちはモデル市場の他の部分にサービスを提供する方法を考えています。なぜなら、私たちはこの市場が継続的に上昇し、多くのプライベートおよび許可モデルに人間のフィードバックが必要となるであろうと考えているからです。
BlockBeats: Sapien AIのデータ注釈ワークフローはどのように設計および最適化されていますか?データ品質を確保するための重要な要素は何ですか?
Trevor: 私たちのプラットフォームは、両面市場のように機能しています。 データアノテーションの世界のUber、分散型バージョンと考えてください。 一方では、Uber の乗客のような需要側と、モデルで人間のフィードバックを得る必要がある法人顧客があります。 たとえば、大規模な言語モデルを構築していて、そのモデルを微調整したい場合、これには人間の関与が必要です。
彼らは私たちを訪ねて、元のデータセットをネットワークにアップロードします。データセットのいくつかの異なる変数(複雑さ、データモード、データ形式など)に基づいて見積もりを提供します。企業のお客様にとって、このプロセスは非常に自己サービス型です。
もう一つはサプライヤー、つまりラベラーであり、彼らは私たちのUberドライバーに相当します。現時点では、これは実際には業界のボトルネックです。私たちはできるだけ多くのラベラーをネットワークに参加させる必要があります。需要は基本的に無限であり、Uberと同様に誰かが乗りたいと思っている人が常にいます。この需要は永遠に終わりません。AIの領域では、これらのAIモデルはより多くのデータを消費する需要が絶えず続いています。
私たちは非常にフォロー供給側に取り組んでおり、誰もが簡単にデータ注釈を行えるようにしています。私たちはいくつかの新しい技術を発明し、これらの技術を継続的に改善しており、分散モードで大規模な高品質な注釈を実現するための保証をしています。最初に私たちが取り組んだ問題は、中央集権的な管理がない状況で高品質な注釈を確保できるかどうかでしたか?これは実際には私たちが「データ注釈の三つの難問」と呼んでいるものです:顧客のコストを下げ、注釈者の収入を増やし、全体の品質を向上させることができるかどうかですか?
私たちはこの領域で何度か実験を行い、非常に興味深い結果を得ています。私たちは平均回帰、異常検知などさまざまな新しいメカニズムを試し、いくつかの確率モデルを混合して使用しました。これらのモデルは、ラベラーの作業品質をかなり推測することができます。また、私たちはいくつかの最新の技術を開発しています。しかし、これまでのところ、私たちは今後5〜10年のデータラベリングの展望に非常に興奮しています。データラベリングはより分散化し、より自己助け化し、より自動化されると考えています。
BlockBeats:製品と技術について詳しく説明していただけますか?特にデータ品質を保証する部分についてです。ステークメカニズムを使用してアノテーターの不正行為を防ぐことができることは知っていますが、他の技術もありますか?
**Trevor:**はい、私たちはさまざまな方法を試しています。私たちには評判システムがあり、またステークと罰則の仕組みもあります。ラベラーはステークした資金を一定期間後に達成できない場合、罰金を科される可能性があります。これらの仕組みはまだ実験段階にありますが、刺激機構だけで遵守度を著しく向上させることができ、標準偏差を増加させる可能性さえあります。ただし、これらの品質管理は異なるアルゴリズムの加重平均によって実現されており、これらのアルゴリズムを継続的に微調整しています。同時に、機械学習を使用してプロセスを最適化しています。たとえば、私たちは ML linter ツールや「赤いウサギ」テストを使用しています。これは、ラベラーに虚偽のデータを提供して、彼らが正直にラベリングしているかどうかをテストするものです。
これは大きな問題です:人々がネットワーク上でシビル攻撃(つまり詐欺やシステムの操作を試みること)を行っているかどうかをどのように知るか?私たちは常に警戒しなければなりません。これは、私たちがいくつかのWeb3インセンティブメカニズムを好む理由でもあります。なぜなら、これらのメカニズムは元々シビル攻撃やビザンチン将軍問題などの類似の問題を解決するために作られたものであり、ルールを守ることが個々の最善の利益に合致するようにすることを目的としています。もし自己中心的ならば、ネットワークプロトコルに従うことになるでしょう。
私たちはまだ初期段階にいます。一部の大口顧客に対しては、より伝統的な品質管理手法を実施していますが、同時にこの新しいデータ世界への進展も迅速に進めています。
BlockBeats: Sapien AIとしての分散化データ注釈プラットフォームの最大の利点は何だと思いますか?
**トレヴァー:**言った通り、私たちのプラットフォームはより自己サービス化されており、これによりより広範な顧客層に対応できるようになりました。アノテーターにとっても、私たちの要求は非常に幅広いです。私たちは誰でもアノテーターになれることを望んでいます。なぜなら、AIの次の時代または次の章は、人間からより多くの既存の知識を抽出することになると信じているからです。それは単に「これは駐車のサインです」、「これは車です」といった、人間と機械の両方が簡単に認識できる基本的なものだけでなく、推論に関するより多くの内容です。
Scale社のAlex Wangはこの問題について話しています:インターネット上のデータは推論の結果ですが、推論のプロセスを真に記述していません。では、人々の思考をより深く理解するにはどうすればよいでしょうか?これにはさらなる作業が必要であり、より専門的な注釈が必要です。これは一般的な人工知能(AGI)の開発を加速するのに役立つ可能性があります。
したがって、私たちのより大きな使命は、企業の内部データセットや専門家の知識を解放し、専門家が特定の領域(医療や法律など)でまだマスターしていない専門知識を解き放つことができるかどうかです。
私たちは引き続き、プラットフォームが可能な限り流動性を持ち、需要と供給のバランスを維持する努力をしています。Uberのように動的価格設定を実現したいと考えています。これらのメカニズムにより、私たちはより真の両面市場に近づけており、データ需要を満たす一方でラベラーの参加を支援しています。これらは私たちがプラットフォームを構築する際のいくつかのユニークな方法です。品質保証に関しては、以前に触れた技術をリアルタイムで使用しています。ラベラーがリアルタイムのフィードバックをできるだけ多く受け取れることを望んでいます。これにより、すべての人により良いエクスペリエンスを提供できるでしょう。
BlockBeats:私はSapien AIがゲームギルドYield Guild Games(YGG)と提携したことに気付きました。したがって、Sapien AIの分散化ラベリングメカニズムは一種の「ラベルで稼ぐ」ゲームと理解できるのでしょうか?
**トレバー:**完全にその通りです。私たちは本当にスマートフォンで生計を立てたい人々の世界に入りたいと考えています。私たちはそれがギグエコノミーの未来だと思っています。Uberを運転するために車が必要ではなく、実際の場所で配達する必要もありません。スマートフォンにログインしてデータを注釈付けするだけで収入を得ることができます。
YGGは素晴らしいパートナーであり、彼らは私たちのエンジェル投資家の一人です。創設者のGabbyとの関係は非常に良好であり、彼らは東南アジアに素晴らしいコミュニティを持っています。私たちは彼らのユーザーが新しい収益方法を見つけるのを手助けし、彼らはまた私たちが新しいユーザーを獲得するのを手助けすることを願って大きな計画を持っています。私たちは最近、いくつかの協力プロジェクトを発表し、将来的にもっと多くの計画を準備しています。 Q4の大部分の時間をアジアで過ごし、これらのパートナーと会い、協力を推進していきます。
BlockBeats:あなたは「Axie Infinity」のような「play to earn」ブロックチェーンゲームについてどのように考えていますか?
**トレバー:**これは非常に革新的であり、インスピレーションの源泉と言えるでしょう。実験に過ぎませんが、新しい形で戻ってくると信じています。これがスタートアップと分散化スタートアップの素晴らしいところであり、創造的な破壊の一種です。
私たちが取り組んでいることには、「プレイして稼ぐ」要素がありますが、「ラベルで稼ぐ」や「トレーニングで稼ぐ」といった表現を使用する傾向があります。ただし、それらには違いがあります。なぜなら、私たちは本物のビジネスです。ここでは実際のデータがラベル付けされ、実際の顧客が本物のお金を支払い、最終的には本物の製品が生産されます。つまり、これは単なる無限ループのビデオゲームではありません。
Sapien AIのデータラベリングは面白いかもしれませんが、Grand Theft Auto Vをプレイするほどは面白くありません。私たちは興味と実用のバランスを取り、バス停で5分待っている間にできることや、家のパソコンで5時間かけてできることの両方を実現したいと考えています。私たちの目標は、できるだけ参加しやすくすることです。
BlockBeats:あなたたちはデータラベリングをもっと面白く、仕事ではなくゲームのようにする方法はありますか?
**トレバー:**はい、現在、私たちはたくさんの試みをしています。game.sapien.ioにアクセスして、このゲームを体験し、本物のAIデータをラベル付けできます。AI作業者になり、ゲームをプレイしながら本物のAIデータをラベル付けし、ポイントを獲得することもできます。このゲームは非常にシンプルで、直感的なインターフェースです。
game.sapien.ioゲームインターフェイス
データそのものも面白いです。たとえば、ファッションデータの注釈付けなど、非常に面白い画像をいくつか注釈付けする必要があるかもしれません。我々はさまざまなタイプのモードやデータセットをサポートする予定です。時間の経過とともにさらに多くの機能を追加していく予定です。01928374656574839201
BlockBeats:YGG以外に、将来的にはどの暗号化プロジェクトと協力する予定ですか?
そのため、私たちは分散化データ領域の他の人々と協力し、この標準を確立する早い段階にあり、それを公共の製品としてリリースする計画です。また、Polymathの時にも同様のことをし、ERC-1400をリリースしました。それは今、ETHブロックチェーン上のトークン化のデフォルト標準の1つとなっています。
ですから、私たちは標準の作成に関するいくつかの考えを持ち、過去に私たちを支援してくれたチームやいくつかの業界パートナーと協力してこのプロセスを推進する計画を立てています。これにより、分散化された AI がより現実的になり、相互運用性が向上し、データが異なる段階でより簡単に流動できるようになります。なぜなら誰もがすべてのことを完了することはできないからです。
BlockBeats:Sapien AIのメインネットとモバイルアプリの具体的な公開日はいつですか?
Trevor: 私たちはまだ具体的なリリース計画はありません。現在、私たちは私たちのコアWeb2製品の市場適合に注力しています。私たちの上昇は非常に良いです。すでに71カ国からのアノテーターが参加しています。今年、需要側の収入はほぼ毎月倍増しています。
私たちは成長し続け、顧客をよりよく理解し、彼らにサービスを提供し続けたいと考えています。時間の経過とともに、さまざまな異なる戦略や技術に対してオープンな姿勢を維持していきます。
BlockBeats:私はBaseの共同創設者であるRowan StoneがSapien AIの最高ビジネス開発責任者として参加したことを知っています。 Sapien AIはどのブロックチェーンパブリックチェーン上に構築されますか?ネイティブトークンの発行計画はありますか?
**トレバー:**これらはすべて非常に深い問題であり、私はそれらを高く評価しています。Rowanは非常に優れており、Jesse Pollakと共にBaseを設立しました。Jesseは間違いなく伝説的な人物です。Rowanは豊富な経験を持っており、産業レベルのWeb3製品の構築には誰にも及びません。私の見解では、彼は最高の人物の1人です。 彼は「Onchain Summer」イベントに参加し、リーダーシップを発揮しました。私の記憶に残る最も成功したイベントの1つです。
彼は私たちがいくつかの分野で市場戦略を策定するのを手助けしています。しかし、私が言ったように、私たちは現在既存の顧客にサービスを提供することに非常に注力しており、これが私たちの主な焦点です。 Layer 1やその他の選択については、まだ約束や決定をしていません。しかし、将来的には、様々な可能性を引き続き検討していく予定です。
BlockBeats:Sapien AIの将来の計画や目標は何ですか?あなたは次の数年でどのようなマイルストーンを達成したいですか?
**トレヴァー:**私たちのミッションは、世界中の人間データアノテーターの数を100倍に増やし、誰でもこのネットワークに簡単にアクセスできるようにすることです。私たちは世界最大の人間データアノテーターネットワークを構築したいと考えています。これは非常に価値のある資産になると思っているため、私たちはそれを構築して制御したいと考えていますが、最終的にはオープンにするつもりです。誰でも許可なしにアクセスできるようにしたいと思っています。
もしあなたが世界最大の人工データラベリングネットワークを構築することができた場合、それは多くの潜在的な AI 能力を解き放つことになります。つまり、より高品質のデータを持っているほど、AI は強くなり、すべての人々に利用されることができるようになります。
我々は、数百万の人間のタガーを雇える大手言語モデル企業だけでなく、すべての人に役立つことを望んでいます。今では、誰でもこのネットワークを使用することができます。それは「タガー即サービス」プラットフォームと考えることができます。
分散化の背後にあるもの:起業家のミッションは問題を解決することです
BlockBeats:最後に、業界全体についての観察と見解をお聞きしたいと思います。現在、暗号化AI領域ではまだどのような未開拓のポテンシャルがあると思いますか?
**トレバー:**私はこの領域に非常に興奮しており、それが私たちがSapien AIを立ち上げた理由でもあります。ここには良い側面もありますが、警戒すべき側面もあります。
良い面は、分散化されたAIがより自律し、より民主的、アクセスしやすく、そしてより強力になる可能性があることです。つまり、AIエージェントが独自のネイティブ通貨で取引することができるということです。これはまた、より多くのプライバシーを持つことができ、ZKテクノロジーを使用してモデル内に何が含まれているかを正確に知ることができるということでもあります。
防衛の観点から、私たちは非常に怖い世界に直面しています。この世界では、AIはますます中央集権化しており、政府とわずかな大手テクノロジー企業だけが強力なモデルにアクセスできるようになっています。これは非常に恐ろしいシナリオです。したがって、オープンソースと分散化されたAIは防御手段です。
私たちにとって、私たちはデータ側に焦点を当てており、分散化されたデータになります。これは、AIスタックの他の部分、例えば計算やアルゴリズムそのものを分散化できないことを意味するものではありません。Transformerがアルゴリズム側での最初の革新であるように、私たちはこれまでにさらなる革新を見てきましたが、常に改善の余地があります。
分散化することは、する必要があるという意味ではありません。何かを分散化することができるからといって、必ずしもそれをする必要があるわけではありません。最終的には真の価値が必要です。しかし、金融やWeb3の他の領域と同様に、AIは確かに分散化から恩恵を受けることができます。
BlockBeats:暗号化AI領域に参入したい起業家に対して、どのようなアドバイスをしたいですか?
**トレバー:**私は、できるだけ多くの学習をお勧めします。技術スタックとアーキテクチャを本当に理解することが重要です。機械学習の博士になる必要はありませんが、その動作原理を理解し、研究することが重要です。ここから始めて、時間の経過とともに、問題をより機械的に理解できるようになるでしょう。これが重要なポイントです。
もしあなたがそれがどのように動作するかを理解していないなら、問題を理解することはできません。そして、どこに問題があるかを知らないなら、あなたは起業家になるべきではありません、なぜなら起業家の仕事は問題を解決することだからです。
だから、これは他のスタートアップと何ら変わりません。この分野を理解する必要があります。分野のトップエキスパートである必要はありませんが、問題を理解し、それらを解決しようとするには、それを十分に理解する必要があります。