AI 有三大基石:算力、數據和算法。
在這三者中,算力的重要性最為直觀,因此「賣鏟子」的英偉達市值一度超越微軟和蘋果,成為全球最值錢的公司。然而,正如 Scale AI 創始人 Alex Wang 在一次播客中所強調的,數據正在取代算力,成為 AI 模型性能提升的最大瓶頸。
AI 對數據的渴求無止境,但可訪問的互聯網數據資源已近枯竭。要進一步提升模型性能,必須依賴更多高質量的數據。雖然企業內部擁有大量有價值的數據,但這些非結構化數據只有經過精細標註,才能真正用於 AI 訓練。而數據標註是一項資源密集型工作,長期以來被視為 AI 產業鏈上最辛苦、最卑微的部分。
不過,正是憑藉率先進入數據標註領域的戰略,Scale AI 在今年 5 月的最新一輪融資中獲得了 138 億美元的估值,超過了許多知名的大模型公司。這一成就無疑打破了「數據標註只是苦力活」的偏見。
就像很多去中心化算力項目向英偉達發起挑戰一樣,今年 4 月剛完成 500 萬美元種子輪的加密 AI 項目 Sapien AI 也試圖向 Scale AI 發起挑戰。它不僅要通過去中心化的方式切入長尾市場,還計劃打造全球最大的人工數據標註網絡。
近日,BlockBeats 專訪了 Sapien AI 的聯合創始人兼 COO Trevor Koverko。作為 Polymath、Polymesh 和Tokens.com等多個成功項目的聯合創始人,Trevor 在創辦 Sapien AI 之前已積累了豐富的創業經驗。在採訪中,他深入分享了自己創辦 Sapien AI 的歷程,以及對 Sapien AI 與 Scale AI 如何展開錯位競爭的策略、以及如何從區塊鏈遊戲中汲取靈感來設計業務機制的獨到見解。
Sapien AI 項目體驗網址:game.sapien.io
BlockBeats:我從您的領英上看到您曾在 NHL 紐約遊騎兵隊效力。作為一名前職業冰球運動員,您是如何轉型進入加密行業的?
**Trevor:**在我的職業生涯中,我嘗試過許多不同的角色。冰球是我的第一份工作。在加拿大,冰球是我們文化中非常重要的一部分,如果你小時候不打冰球,幾乎就會被人視為異類。所以,這是我成長過程中的重要一環。我從團隊合作和高水平競技中學到了很多,這些經歷至今仍在影響我。
當我的冰球生涯結束後,我開始從事商業,實際上,我曾在亞洲度過了一段時間。我住在中國,具體來說是中國東北的城市大連。我的體育生涯和在中國的經歷是塑造我成長過程中非常重要的兩大部分。
我是在多倫多的加密生態系統中成長起來的。我很早就參與了比特幣社區,那個時候以太坊還沒有推出。我們經常參加聚會,和朋友們一起交流,還遇到了 Vitalik,當時他只是《Bitcoin Magazine》的編輯。
後來,當 Vitalik 發佈白皮書,比特幣社區逐漸演變成了以太坊社區。那是一段激情燃燒的歲月。我在 2017-2018 年推出了自己的 RWA 項目 Polymath,當時這個領域甚至還沒有一個明確的分類,我們稱之為「證券型代幣」。這是我在加密領域的第一個重大項目。我們在這個項目中做了方方面面的工作,從籌集資金到在以太坊上發佈應用。
最終我們還建立了自己的 Layer 1 區塊鏈,這是一個更大的挑戰。幸運的是,我們有像 Charles Hoskinson 這樣非常聰明的人擔任協議架構師。如今,這個區塊鏈已經發展成為獨立的品牌,名為 Polymesh。它是最早也是最大的 RWA 網絡之一,而且是 Layer 1 級別的。現在我只是一個社區成員,因為它已經完全去中心化了,我只是遠遠地支持著這個網絡。就採用率而言,它表現得非常好,現在 RWA 也逐漸成為一個令人興奮的生態系統。
BlockBeats:什麼契機讓您的興趣從 RWA 轉向 AI,並決定創辦 Sapien AI?
**Trevor:**在 Polymesh 日常運營去中心化後,我開始對 AI 產生了興趣。多倫多有一個非常強大的 AI 技術社區,很多現代 AI 的早期架構都是由多倫多大學的研究人員創造的,比如「深度學習之父」Geoffrey Hinton 和 OpenAI 前首席科學家 Ilya Sutskever。
左一:Ilya Sutskever;右一:Geoffrey Hinton
我本身對使用 AI 就很感興趣,同時在滑鐵盧大學也有一幫從事機器學習的聰明朋友。我逐漸對 AI 的技術棧、運作方式、訓練數據的生產過程,以及人類如何參與這些訓練數據的生產產生了興趣。這是一個非常自然的學習過程。
起初我並沒有創辦公司的野心,但在深入 AI 和機器學習領域大約 6 個月後,在滑鐵盧大學機器學習研究生項目一位導師的指導下,我們開始發現一些存在問題的有趣領域,並看到了解決這些問題的機會。最終,我們創立了 Sapien 這家公司。
BlockBeats:您可以為不瞭解 Sapien AI 的人介紹一下這個項目的核心使命是什麼嗎?在當前的 AI 行業中,數據標註服務的重要性體現在哪裡?
**Trevor:**數據標註極其重要。這也是 ChatGPT 這類主流大語言模型成功的主要原因之一,因為它們是首批使用工業規模的人類數據標註員來豐富數據集的模型。
時至今日,數據標註的重要性還在不斷增加,因為這些模型之間的性能競爭非常激烈,而提升模型性能的最佳方式就是在數據集中加入更多的專業人類數據標註。
我們將數據處理視為一個供應鏈:首先是原始數據,然後需要對其進行結構化和組織。完成結構化後,就可以訓練這些數據。訓練完成後,就可以在其上進行推理。簡而言之,這是一個將數據在人工智能背景下逐步增值的過程。
就像其他行業一樣,我們開始看到 AI 行業的細分,不同的垂直領域正在湧現,某些公司在流程的特定步驟上表現出色。對我來說,最有趣的是第二步,即數據的結構化和訓練準備,這一直是我最感興趣的部分。
BlockBeats:是什麼讓 Sapien AI 不同於傳統的 Web2 公司,如 Scale AI?
**Trevor:**這是個好問題。我們很欣賞 Scale,他們是一家了不起的公司,聯合創始人都非常出色。我們認識其中一位。他們是世界上最大的 AI 公司之一,無論是從收入、市值還是使用量來看都是如此。
我們的不同之處在於,我們從第一性原理出發,思考在 2024 年,一個現代化的數據標註技術棧應該是什麼樣子。我們並不一定追求 Scale 所覆蓋的那些用例,我們的目標是中端市場和長尾市場。
我們努力讓任何人都能輕鬆獲得數據集的人工反饋,無論你是中端市場的開源模型,還是企業級模型,或者只是週末進行研究的個人。如果你想提高模型性能,需要隨需應變的人工反饋,那就來找我們。
你可以把我們看作是 Scale AI 的一個更分佈式或去中心化的版本。這意味著我們的標註員更加廣泛,他們不侷限於某個特定位置,而是可以在任何地方遠程工作。某種程度上,這種分散性可以讓我們在數據標註質量上做得更好,因為多樣性不僅僅是為了實現多元化,還可以提升數據訓練的質量
例如,如果你在一個設施中讓一群背景相似的人標註數據,很可能會產生有偏見或文化傾向的數據輸出。因此,我們從一開始就努力使其儘可能多樣化和穩健。由於更加去中心化,我們在某種程度上也能獲得更高質量的標註員。如果你必須去菲律賓某個特定地點工作,你能吸引到的人才是有限的,但通過遠程優先的方式,我們可以從任何地方找到標註員。
我並不是說 Scale 沒有做這些事情,但我們在思考如何服務於模型市場的其他部分。因為我們認為這個市場會不斷增長,將會出現大量需要人工反饋的私有和許可模型。
BlockBeats:Sapien AI 的數據標註工作流程是如何設計和優化的?有哪些關鍵環節確保數據質量?
**Trevor:**我們的平臺運作方式類似於一個雙邊市場。你可以把它想象成數據標註界的 Uber,一個去中心化的版本。一方面是需求方,就像 Uber 中的乘客,對我們來說就是需要在其模型中獲取人類反饋的企業客戶。比如,他們正在構建一個大語言模型,想要對模型進行微調,這時就需要人工參與。
他們來找我們,將原始數據集上傳到網絡。我們根據數據集的幾個不同變量(如複雜度、數據模態、數據格式等)給出報價。對企業客戶來說,這個過程是非常自助的。
另一方面是供應方,即標註人員,他們相當於我們的 Uber 司機。目前,這實際上是行業的瓶頸,我們需要儘可能多的標註員加入網絡。因為需求基本上是無限的,就像 Uber 一樣,總有人想搭車,這個需求永遠不會結束。在 AI 領域,這些 AI 模型對消耗更多數據的需求也是持續不斷的。
我們非常關注供給側,致力於讓任何人都能輕鬆地進行數據標註。我們發明了一些新技術,並且仍在不斷改進這些技術,以確保在分佈式模式下實現大規模的高質量標註。最初我們提出的問題是,在沒有中心化管理的情況下,能否確保高質量的標註?這實際上是我們所謂的「數據標註三難問題」:我們能否讓客戶的成本更低,讓標註員的收入更高,同時提高整體質量?
我們在這個領域進行了多次實驗,取得了一些非常有趣的結果。我們嘗試了均值迴歸、異常檢測等不同的新機制,並混合使用了一些概率模型,這些模型可以在很大程度上推測標註員的工作質量。我們還在研發一些更新的技術。不過到目前為止,我們對未來五到十年數據標註的發展前景感到非常興奮。我們認為,數據標註將會變得更加去中心化、更自助化和更自動化。
BlockBeats:能否更詳細介紹一下你們的產品和技術,特別是那些能確保數據質量的部分?我知道你們有質押機制來防止標註員作惡,還有其他技術嗎?
**Trevor:**是的,我們正在嘗試許多不同的方法。我們有聲譽系統,還有質押與懲罰機制。標註者在質押一定的資金後,如果未能達到標準,可能會被罰款。這些機制還處於早期實驗階段,但我們發現,僅僅這種激勵機制就可以顯著提高質量的遵守度,甚至可能提高多個標準差。不過,這一系列質量控制是由不同算法的加權平均來實現的,我們也在不斷微調這些算法。同時,我們自己也在使用機器學習來優化這一過程。比如,我們使用 ML linter 工具和「紅兔子」測試,即向標註者提供虛假數據,以測試他們是否誠實標註。
這是一個大問題:如何知道人們是否在對網絡進行女巫攻擊(即試圖作弊並操縱系統)?我們必須時刻警惕這一點。這也是我們喜歡某些 Web3 激勵機制的原因,因為這些機制最初就是為了解決類似的女巫攻擊問題、拜占庭將軍問題而發明的,目的是讓遵守規則符合每個人的最佳利益。如果你自私,你就會遵循網絡協議。
我們還處於早期階段。對一些大客戶,我們實施了更傳統的質量控制方法,同時我們也在快速向這個新的前沿數據世界邁進。
BlockBeats:您覺得 Sapien AI 作為一個去中心化數據標註平臺的最大優勢是什麼?
**Trevor:**正如我所說,我們的平臺更加自助化,這使我們能夠服務更廣泛的客戶群。對於標註員來說,我們的要求也非常寬泛。我們希望任何人都能成為標註員,因為我們相信 AI 的下一個時代或下一章將是從人類那裡提取更多現有知識。不僅僅是基礎層面的東西,比如「這是一個停車標誌」、「這是一輛汽車」之類人類和機器都能輕易識別的內容,而是更多關於推理的內容。
Scale 公司的 Alex Wang 談到過這個問題:互聯網上的數據是推理的結果,但並沒有真正描述推理的過程。那麼,我們如何更深入地瞭解人們的思維?這需要更多的工作,需要更專業的標註。這有可能幫助我們加速通用人工智能(AGI)的發展。
所以,我們的更大使命是:我們能否在企業內部的私有數據集中,在專業人士的頭腦中,解鎖更多知識?這些專業人士在某些垂直領域(如醫療或法律)擁有模型尚未掌握的專業知識。
我們仍在努力使我們的平臺儘可能具有流動性,儘量保持供需平衡。我們希望實現動態定價,就像 Uber 那樣。這些機制使我們更像一個真正的雙邊市場,一邊滿足數據需求,一邊幫助標註員加入。這些都是我們構建平臺的一些獨特方式。在質量保證方面,我們實時使用了我之前提到的那些技術。我們希望我們的標註員儘可能多地獲得實時反饋,因為這能為所有人創造更好的體驗。
BlockBeats:我注意到 Sapien AI 與遊戲公會 Yield Guild Games(YGG)達成了合作,所以 Sapien AI 的去中心化標註機制是否可以理解為一種「label to earn」遊戲?
**Trevor:**完全正確。我們確實希望能夠進入那些想通過手機謀生的人的世界,我們認為這是零工經濟的未來。你不需要一輛車來開 Uber,不需要在一個實體地點進行外賣配送,你只需要登錄手機,進行數據標註,就可以賺取收入。
YGG 是一個了不起的合作伙伴,他們是我們的天使投資人之一。我們與創始人 Gabby 關係很好,他們在東南亞有一個了不起的社區。我們與他們有宏大的計劃,希望幫助他們的用戶找到新的賺錢方式,同時他們也幫助我們獲得新用戶。我們最近宣佈了一些合作項目,未來還有更多計劃正在籌備中。Q4 的大部分時間裡,我們也會在亞洲,與這些合作伙伴見面,並繼續推動合作。
BlockBeats:您對《Axie Infinity》這樣的「play to earn」區塊鏈遊戲有什麼看法?
**Trevor:**這非常具有創新性,可以說是一個靈感的源泉。雖然只是一個實驗,但我相信它會以新的形式迴歸。這就是創業公司和去中心化創業的美妙之處,是一種創造性破壞。
我們正在做的事情確實有一些「play to earn」的元素,我們也傾向於使用「label to earn」或「train to earn」這樣的說法。但其中還是有區別的,因為我們是一個真正的業務。這裡有真實的數據被標註,有真實的客戶支付真金白銀,最終有一個真實的產品被生產出來。所以這不只是一個無限循環的視頻遊戲。
雖然用 Sapien AI 標註數據很有趣,但可能不如玩《俠盜獵車手 V》那麼有趣。我們希望在趣味性和實用性之間取得良好的平衡,讓它既是一種你可以在公交站等 5 分鐘時做的事情,也可以是在家裡電腦前花 5 小時做的事情。我們的目標是讓它儘可能地易於參與。
BlockBeats:你們是否有辦法讓數據標註變得更加有趣,不僅是工作,而更像遊戲?
**Trevor:**是的,我們現在有很多嘗試。你可以訪問 game.sapien.io,親自體驗這個遊戲並標註真正的 AI 數據。你可以成為一名 AI 工作者,邊玩遊戲邊標註真正的 AI 數據,還可以賺取積分。這款遊戲非常簡約,界面直觀。
game.sapien.io遊戲界面
數據本身也很有趣。你可能需要標註一些非常有趣的圖片,比如為我們的時尚數據做標註等。我們計劃支持各種不同類型的模態和數據集。我們計劃隨著時間的推移不斷添加更多的功能。
BlockBeats:除了 YGG,你們還計劃在未來與哪些加密項目合作?
因此,我們正在與去中心化數據領域的其他人合作,處於建立這一標準的早期階段,並計劃將其作為公共產品發佈。我們在 Polymath 時也做過類似的事情,我們發佈了 ERC-1400,它現在成為了以太坊上代幣化的默認標準之一。
所以我們有一些關於創建標準的想法,並計劃與過去幫助過我們的團隊以及一些行業合作伙伴共同推動這一進程。這將使去中心化 AI 變得更加真實,也會讓它更具互操作性,意味著數據可以更容易地在不同的步驟之間流動,因為沒有一個人能夠完成所有事情。
BlockBeats:Sapien AI 主網和移動應用的具體發佈日期是什麼時候?
**Trevor:**目前我們還沒有具體的發佈計劃。我們現在專注於我們的核心 Web2 產品市場匹配。我們的增長非常好,現在已經有來自 71 個國家的標註員。今年我們在需求端的收入幾乎每個月都在翻倍。
我們只想繼續成長,不斷了解我們的客戶,持續為他們提供服務。隨著時間的推移,我們會對各種不同的策略和技術保持開放態度。
BlockBeats:我看到 Base 聯合創始人 Rowan Stone 已經加入 Sapien AI 擔任首席業務開發官,Sapien AI 會建立在哪條區塊鏈公鏈上?是否有發行原生代幣的計劃?
**Trevor:**這些都是很有深度的問題,我很欣賞。Rowan 非常棒,他和 Jesse Pollak 一起創立了 Base,Jesse 絕對是個傳奇人物。Rowan 有著豐富的經驗,在構建工業級 Web3 產品方面無人能及。在我看來,他是首屈一指的。他參與領導了「Onchain Summer」活動,這是我記憶中最成功的活動之一。
他正在幫助我們制定某些領域的市場策略。但是,就像我剛才說的,我們目前非常專注於為現有客戶提供服務,這是我們的主要焦點。在選擇任何 Layer 1 或其他方面,我們還沒有做出任何承諾或決定。但在未來,我們會繼續考慮各種可能性。
BlockBeats:Sapien AI 在未來有什麼計劃或目標?您希望在接下來的幾年中實現哪些里程碑?
**Trevor:**我們的使命是將全球人類數據標註員的數量增加 100 倍,並讓任何人都能輕鬆接入這個網絡。我們想建立世界上最大的人類數據標註員網絡。我們認為這將是一個非常有價值的資產,所以我們想要建立並控制它,但最終會開放它。我們希望任何人都能接入並完全無需許可。
如果我們能夠構建全球最大的人工數據標註網絡,這將解鎖大量潛在的 AI 能力,因為我們擁有的高質量數據越多,AI 就越強大,也越能為所有人所用。
我們希望它能為所有人服務,而不僅僅是那些負擔得起數百萬人類標註員網絡的大型語言模型公司。現在,任何人都可以使用這個網絡。你可以把它看作是一個「標註即服務」的平臺。
BlockBeats:最後我想問問您對整個行業的觀察和看法。您認為目前加密 AI 領域還存在哪些尚未被開掘的潛力?
**Trevor:**我對這個領域非常興奮,這也是我們創立 Sapien AI 的原因。這裡有好的一面,也有需要防範的一面。
好的一面是,去中心化的 AI 可能會更加自主化,更加民主化,更加易於訪問,也更加強大。這意味著 AI 代理可以有自己的原生貨幣進行交易,這也意味著你可以擁有更多的隱私,並且可以通過 ZK 技術確切地知道模型中包含什麼。
在防範方面,我們面臨的是一個非常可怕的世界,在這個世界裡,AI 變得越來越集中化,只有政府和少數幾家大型科技公司才能接觸到強大的模型。這是一個相當可怕的場景。因此,開源和去中心化的 AI 是一種防禦手段。
對我們來說,我們更專注於數據方面,去中心化數據。這並不意味著你不能去中心化 AI 堆棧的其他部分,比如計算和算法本身。就像 Transformer 是算法方面的第一個創新,我們已經看到了更多的創新,但總是有改進的空間。
去中心化並不意味著你應該這麼做,僅僅因為你可以去中心化某些東西並不意味著你就應該這麼做。最終必須要有真正的價值。但就像金融和 Web3 空間的其他部分一樣,AI 肯定可以從去中心化中受益。
BlockBeats:對於想要進入加密 AI 領域的創業者,您最想給出什麼建議?
**Trevor:**我建議要儘可能多地學習,真正理解技術棧和架構。你不一定要成為機器學習博士,但瞭解它的工作原理並進行研究很重要。從這裡開始,隨著時間的推移,你會逐漸更有機地理解問題。這是關鍵。
如果你不瞭解它的工作原理,就無法理解問題所在。而如果你不知道問題在哪裡,你就不應該成為創業者,因為創業者的工作就是解決問題。
所以這與其他任何初創公司沒有什麼不同,你應該理解這個領域。你不必是該領域的全球頂尖專家,但要足夠了解它,以便能夠理解問題,然後嘗試解決這些問題。