AI имеет три основных камня: Вычислительная мощность, данные и Алгоритм.
Среди этих трех вещей, Вычислительная мощность наиболее очевидна, поэтому рыночная капитализация Nvidia в одно время превысила Microsoft и Apple, став самой дорогой компанией в мире. Однако, как отметил основатель Scale AI Алекс Ванг в одном из своих подкастов, данные заменяют Вычислительная мощность и становятся основным узким местом для улучшения производительности моделей искусственного интеллекта.
Жажда AI к данным бесконечна, но доступные ресурсы интернет-данных иссякли. Чтобы дальше улучшать производительность модели, необходимо больше высококачественных данных. Хотя у предприятий есть много ценных данных, эти неструктурированные данные могут быть использованы для обучения AI только после тщательной разметки. И разметка данных является ресурсоемким процессом, который долгое время считался самой трудной и низкопрофильной частью в индустрии AI в блокчейне.
Однако именно благодаря стратегии первоначального входа в область разметки данных Scale AI в мае этого года оценивалась в 138 миллиардов долларов в свежем раунде финансирования, превысив многие известные компании-разработчики больших моделей. Этот успех, безусловно, разрушил предубеждение о том, что разметка данных - это только тяжелый физический труд.
Как многие проекты ДецентрализацияВычислительная мощность бросают вызов NVIDIA, недавно завершившийся проект по искусственному интеллекту Sapien AI, привлекший $5 млн на стадии зерно в апреле, также пытается бросить вызов Scale AI. Он не только планирует проникнуть на длинный хвост рынка через Децентрализация, но и создать крупнейшую в мире сеть аннотации данных.
Недавно BlockBeats провел интервью с сооснователем и главным операционным директором компании Sapien AI Тревором Коверко. Тревор, который является сооснователем нескольких успешных проектов, таких как Polymath, Polymesh и Tokens.com, уже накопил значительный опыт предпринимательства к моменту основания Sapien AI. В интервью он подробно рассказал о своем пути к созданию Sapien AI, стратегии конкуренции Sapien AI и Scale AI, а также о том, как он черпает вдохновение для разработки бизнес-механизмов из блокчейн-игр.
Адрес сайта для опыта проекта Sapien AI: game.sapien.io
**BlockBeats: Я видел на вашей странице в LinkedIn, что вы раньше играли в команде NHL New York Rangers. Как бывший профессиональный хоккеист, как вы попали в индустриюшифрование?
Тревор: За свою профессиональную карьеру я попробовал множество разных ролей. Хоккей был моей первой работой. В Канаде хоккей - очень важная часть нашей культуры, и если ты в детстве не играл в хоккей, то тебя могут посчитать чем-то странным. Поэтому это было важной частью моего взросления. Я многое узнал о командной работе и высоком уровне соревнований, и эти опыты до сих пор влияют на меня.
Когда завершилась моя хоккейная карьера, я начал заниматься бизнесом, и, фактически, провел некоторое время в Азии. Я жил в Китае, конкретно в городе Далянь на северо-востоке страны. Моя спортивная карьера и опыт в Китае - это две очень важные части моего становления.
Я вырос в экосистеме шифрования в Торонто. Я присоединился к сообществу Биткойна задолго до запуска Эфириума. Мы часто участвовали во встречах, общались с друзьями и даже встречались с Виталиком, который тогда был только редактором журнала «Bitcoin Magazine».
Позже, когда Vitalik опубликовал Вайтпейпер, сообщество BTC постепенно превратилось в сообщество ETH. Это были страстные годы. В 2017-2018 годах я запустил свой собственный проект RWA Polymath, к тому времени даже не было четкой классификации этой области, мы называли ее “маркер безопасности”. Это был мой первый крупный проект в области шифрования. Мы проделали огромную работу в этом проекте, начиная с сбора средств и заканчивая запуском приложений на платформе ETH.
В конечном итоге мы также создали свою собственную блокчейн-платформу Layer 1, что было большим вызовом. К счастью, у нас есть такие умные люди, как Чарльз Хоскинсон, который является архитектором Протокола. Сегодня этот блокчейн стал самостоятельным брендом под названием Polymesh. Он является одной из самых ранних и крупнейших сетей RWA на уровне Layer 1. Теперь я просто член сообщества, потому что он полностью децентрализован, и я просто поддерживаю эту сеть издалека. Что касается его принятия, оно проявляется очень хорошо, и сейчас RWA также становится захватывающей экосистемой.
BlockBeats: Что побудило вас переключиться с RWA на AI и решить создать Sapien AI?
Trevor: После внедрения Децентрализации в повседневную работу Polymesh я заинтересовался искусственным интеллектом. В Торонто есть очень мощное сообщество технологий искусственного интеллекта, многие из современных архитектур искусственного интеллекта были созданы исследователями из Университета Торонто, такими как «отец Глубина обучения» Джеффри Хинтон и бывший главный научный сотрудник OpenAI Илья Суцкевер.
Слева: Илья Суцкевер; Справа: Джеффри Хинтон
Я сам очень заинтересован в использовании искусственного интеллекта, и у меня также есть группа умных френов, которые занимаются машинным обучением в Университете Ватерлоо. Я постепенно заинтересовался техническим стеком AI, способом работы, процессом создания обучающих данных и участием людей в этом процессе создания обучающих данных. Это очень естественный процесс обучения.
Вначале у меня не было амбиций создавать компанию, но спустя примерно 6 месяцев работы в области искусственного интеллекта и машинного обучения, под руководством наставника в программе магистратуры по машинному обучению Университета Ватерлоо, мы начали замечать интересные области с проблемами и увидели возможности их решения. В итоге мы создали компанию Sapien.
BlockBeats: Можете ли вы рассказать непонимающим Sapien AI людям о главной миссии этого проекта? В чем заключается важность услуг по разметке данных в сфере искусственного интеллекта?
Тревор: Аннотация данных чрезвычайно важна. Это также одна из основных причин успеха таких ведущих языковых моделей, как ChatGPT, потому что они являются первыми моделями, использующими промышленномасштабных аннотаторов данных для обогащения набора данных.
На сегодняшний день важность разметки данных продолжает увеличиваться, поскольку конкуренция между этими моделями очень ожесточенная, и наилучший способ улучшить производительность моделей - добавить больше профессиональной разметки данных людьми в набор данных.
Мы рассматриваем обработку данных как процесс Блокчейн поставок: сначала идет сырая информация, затем ее необходимо структурировать и организовать. После завершения структурирования данные можно обучать. После завершения обучения данные можно использовать для выводов. Другими словами, это процесс поэтапного увеличения стоимости данных в контексте искусственного интеллекта.
Как и в других отраслях, мы начинаем видеть сегментацию индустрии искусственного интеллекта, появляются различные вертикальные направления, некоторые компании проявляют свои сильные стороны на определенных этапах процесса. Для меня наиболее интересным является второй шаг - структурирование данных и подготовка к обучению, это всегда было для меня наиболее интересной частью.
**BlockBeats: Чем Sapien AI отличается от традиционных компаний Web2, таких как Scale AI?
Trevor: Это хороший вопрос. Мы очень ценим Scale, они удивительная компания с выдающимися сооснователями. Мы знакомы с одним из них. Они являются одной из самых крупных компаний в мире в области искусственного интеллекта, как по доходам, так и по рыночной капитализации и использованию.
Наша особенность заключается в том, что мы исходим из первоначальных принципов и рассматриваем, каким должен быть современный стек технологий по разметке данных в 2024 году. Мы не обязательно стремимся охватить все случаи использования, которые охватывает Scale, наша цель - средний и длинный хвост рынка.
Мы стремимся сделать отзывы людей о наборах данных легко доступными для всех, независимо от того, являетесь ли вы моделью среднего размера Открытый исходный код, моделью корпоративного уровня или просто человеком, проводящим исследования по выходным. Если вы хотите повысить производительность модели и вам нужна обратная связь по запросу, приходите к нам.
Вы можете рассматривать нас как более распределенную или Децентрализация версию Scale AI. Это означает, что наши аннотаторы более широко распространены и не ограничены определенным местоположением, а могут работать удаленно в любом месте. В некотором смысле такая децентрализация может позволить нам достичь более высокого качества аннотации данных, потому что разнообразие необходимо не только для достижения разнообразия, но и для повышения качества тренировочных данных.
Например, если вы попросите группу людей с похожим фоном помечать данные в одном учреждении, возможно, вы получите выходные данные, которые содержат предвзятость или культурный уклон. Поэтому мы с самого начала стремимся к максимальному разнообразию и устойчивости. Благодаря большей децентрализации, мы также можем получить более качественных разметчиков в определенной степени. Если вы должны работать в определенном месте на Филиппинах, то вы сможете привлечь ограниченное количество кандидатов, но благодаря приоритету удаленной работы, мы можем найти разметчиков в любом месте.
Я не говорю, что Scale не делает эти вещи, но мы думаем о том, как обслуживать другие части рынка моделей. Потому что мы считаем, что этот рынок будет расти и появится много приватных и лицензионных моделей, требующих обратной связи от людей.
BlockBeats: Как разработана и оптимизирована рабочая процедура маркировки данных Sapien AI? Какие ключевые моменты обеспечивают качество данных?
Тревор: Наша платформа работает как двусторонний рынок. Вы можете представить ее как Uber в сфере разметки данных, версию Децентрализация. С одной стороны есть спрос, как пассажиры в Uber, для нас это корпоративные клиенты, которые нуждаются в обратной связи от людей в своей модели. Например, они строят большую языковую модель и хотят ее настроить, в этом случае им нужна ручная работа.
Они пришли к нам и загрузили исходный набор данных в сеть. Мы предлагаем стоимость на основе нескольких различных переменных данных (например, сложность, модальность данных, формат данных и т. Д.) из набора данных. Для корпоративных клиентов этот процесс очень самообслуживания.
С другой стороны, это поставщики, то есть аннотаторы, которые, по сути, являются нашими водителями Uber. В настоящее время это фактически является узким местом в отрасли, и нам нужно привлечь как можно больше аннотаторов в сеть. Поскольку спрос в основном бесконечен, как и в случае с Uber, всегда найдутся люди, желающие покататься, и этот спрос никогда не прекратится. В области искусственного интеллекта потребность в этих моделях ИИ в потреблении больше данных также постоянно растет.
Мы очень следуем предложению стороны, стремясь сделать разметку данных легкой для любого человека. Мы изобрели несколько новых технологий и по-прежнему улучшаем их, чтобы обеспечить высококачественную разметку в распределенном режиме масштаба. Изначально наш вопрос был: можно ли обеспечить высококачественную разметку без централизованного управления? Это фактически наша так называемая “тройная проблема разметки данных”: можем ли мы снизить затраты клиентов, увеличить доход разметчиков и одновременно повысить общее качество?
Мы провели несколько экспериментов в этой области и получили некоторые очень интересные результаты. Мы попробовали различные новые механизмы, такие как среднее возвращение, обнаружение аномалий и т. д., и смешали их с некоторыми вероятностными моделями, которые в значительной степени могут предполагать качество работы аннотаторов. Мы также разрабатываем некоторые обновленные технологии. Однако до сих пор мы очень взволнованы перспективами развития аннотации данных в течение следующих пяти-десяти лет. Мы считаем, что аннотация данных станет более децентрализованной, самообслуживаемой и автоматизированной.
**BlockBeats: Можете ли вы более подробно рассказать о ваших продуктах и технологиях, особенно о тех аспектах, которые могут гарантировать качество данных? Я знаю, что у вас есть механизм застейкать, чтобы предотвратить деятельность отметчиков, есть ли другие технологии?
Тревор: Да, мы пробуем много разных вещей. У нас действует система репутации, а также система застейкать и наказания. Аннотатор, после определенной суммы средств, может быть оштрафован, если он не соответствует критериям. Эти механизмы все еще находятся на ранних экспериментальных стадиях, но мы обнаружили, что этот стимул сам по себе может значительно улучшить соблюдение качества, и, возможно, даже на несколько стандартных отклонений. Однако этот ряд контроля качества осуществляется по средневзвешенному значению различных алгоритмов, которое мы постоянно дорабатываем. При этом мы сами используем машинное обучение для оптимизации этого процесса. Например, мы используем инструменты ML и тест Red Rabbit, который заключается в предоставлении ложных данных аннотаторам, чтобы проверить, честны ли они со своими метками.
Это большая проблема: как узнать, не проводят ли люди Атака Сивиллы (то есть пытаются совершить мошенничество и манипулировать системой) в сети? Мы должны всегда быть бдительными по этому поводу. Это также причина, по которой мы любим некоторые механизмы стимулирования Web3, потому что эти механизмы изначально были созданы для решения подобных проблем, таких как Атака Сивиллы и Проблема византийских генералов, с целью сделать соблюдение правил наилучшим интересом каждого. Если вы эгоистичны, вы будете следовать Протоколу сети.
Мы все еще находимся на ранней стадии. Мы используем более традиционные методы контроля качества для некоторых крупных клиентов, одновременно быстро продвигаясь в этот новый мир данных.
BlockBeats: Как вы думаете, какое главное преимущество у Sapien AI в качестве платформы для разметки данных Децентрализация?
Тревор: Как я уже говорил, наша платформа становится более самообслуживаемой, что позволяет нам обслуживать более широкий круг клиентов. В отношении разметчиков наши требования также очень широки. Мы хотим, чтобы каждый мог стать разметчиком, потому что мы верим, что следующая эра или глава искусственного интеллекта будет извлекать больше существующих знаний от людей. Это не только основы, которые легко распознаются как людьми, так и машинами, например, «это знак парковки», «это автомобиль», а также более многое о рассуждениях.
Алекс Ван из компании Scale говорил об этом: данные в Интернете являются результатом выводов, но не описывают процесс вывода. Как мы можем более глубоко понять человеческое мышление? Это требует больше работы и более профессиональной разметки. Это может помочь ускорить развитие общего искусственного интеллекта (AGI).
Итак, наша большая миссия: можем ли мы извлечь больше знаний из частных наборов данных в пределах предприятия, в умах профессионалов? Эти профессионалы обладают специализированными знаниями в определенных вертикальных отраслях (например, медицина или право), которые модели еще не освоили.
Мы все еще прилагаем усилия, чтобы наша платформа обладала максимальной Ликвидностью и поддерживала баланс спроса и предложения. Мы хотим реализовать динамическое ценообразование, подобное тому, что делает Uber. Эти механизмы делают нас более похожими на настоящий двусторонний рынок, удовлетворяющий потребности в данных и помогающий аннотаторам присоединиться. Это некоторые уникальные способы, которыми мы строим платформу. Что касается обеспечения качества, мы в реальном времени используем те технологии, о которых я упоминал ранее. Мы хотим, чтобы наши аннотаторы получали обратную связь в режиме реального времени, так как это способствует улучшению опыта для всех.
BlockBeats: Я заметил, что Sapien AI сотрудничает с гильдией игр Yield Guild Games (YGG), так что можно ли понимать механизм маркировки Sapien AI как игру ‘label to earn’?
Тревор: Полностью верно. Мы действительно хотим попасть в мир тех, кто хочет зарабатывать с помощью мобильного телефона. Мы считаем, что это будущее рынка подработок. Вам не нужна машина, чтобы работать в Uber, не нужно доставлять еду из физического места, вам просто нужно войти в свой телефон, помечать данные и зарабатывать деньги.
YGG - это замечательный партнер, они - один из наших Инвест-ангелов. У нас хорошие отношения с основателем Габби, у них отличное сообщество в Юго-Восточной Азии. У нас с ними большие планы, мы надеемся помочь их пользователям найти новые способы заработка, в то же время они помогут нам привлечь новых пользователей. Недавно мы объявили о нескольких совместных проектах, и у нас еще много планов в стадии подготовки. Большую часть времени в четвертом квартале мы также будем в Азии, встречаться с этими партнерами и продолжать сотрудничество.
BlockBeats: Как вы относитесь к таким Блокчейн-играм, как «Axie Infinity» с возможностью заработка при игре?
**Trevor:**Это очень инновационно, можно сказать, источник вдохновения. Хотя это всего лишь эксперимент, но я уверен, что он вернется в новом виде. Вот в чем прелесть стартапов и Децентрализация предпринимательства, это разрушение творчества.
То, что мы делаем, действительно имеет некоторые элементы “игры ради заработка”, и мы склоняемся к использованию терминов “метка для заработка” или “обучение для заработка”. Но здесь есть разница, потому что мы настоящий бизнес. Здесь реальные данные помечены, реальные клиенты платят реальные деньги, и в конечном итоге производится реальный продукт. Поэтому это не просто бесконечная игра в видеоигры.
Хотя маркировка данных с помощью Sapien AI интересна, она может быть не так интересна, как игра в Grand Theft Auto V. Мы хотим достичь хорошего баланса между увлекательностью и практичностью, чтобы это было чем-то, что вы можете делать, когда ожидаете автобуса на остановке 5 минут, а также чем-то, что вы можете делать перед компьютером дома 5 часов. Наша цель - сделать это максимально удобным для участия.
**BlockBeats: у вас есть способ сделать разметку данных более интересной, чтобы она больше напоминала игру, а не только работу?
Тревор: Да, у нас сейчас много экспериментов. Вы можете посетить game.sapien.io, чтобы лично попробовать эту игру и пометить настоящие данные ИИ. Вы можете стать сотрудником по работе с ИИ, играя в игру и помечая настоящие данные ИИ, а также зарабатывать очки. Эта игра очень проста и имеет интуитивно понятный интерфейс.
game.sapien.io интерфейс игры
Сам по себе датасет тоже очень интересен. Возможно, вам придется разметить несколько очень интересных изображений, таких как разметка нашего модного датасета и т. Д. Мы планируем поддерживать различные типы модальностей и наборов данных. Мы планируем постепенно добавлять больше функций с течением времени.
**BlockBeats: Кроме YGG, вы планируете сотрудничать с какими-то другими проектами шифрования в будущем?
Поэтому мы сотрудничаем с другими участниками в области Децентрализация данных, находясь на ранних этапах создания этого стандарта, и планируем его выпуск в качестве общественного продукта. Мы также делали что-то похожее в Polymath, где мы выпустили ERC-1400, который теперь является одним из стандартов по токенизации на блокчейне ETH.
Итак, у нас есть несколько идей по созданию стандартов, и мы планируем совместно с нашей командой, которая помогала нам в прошлом, и некоторыми партнерами в этой отрасли продвигать этот процесс. Это сделает Децентрализация AI более реальной и более интероперабельной, что означает, что данные могут легче переходить между различными шагами, потому что никто не может делать все самостоятельно.
**Какова конкретная дата выхода BlockBeats: Sapien AI Основная сеть и мобильное приложение? **
Trevor: В настоящее время у нас нет конкретного плана выпуска. Мы сейчас сосредоточены на соответствии нашего основного продукта Web2 с рынком. Наш рост очень хороший, у нас уже есть аннотаторы из 71 страны. В этом году наш доход с потребительской стороны практически удваивается каждый месяц.
Мы хотим продолжать расти, постоянно узнавать наших клиентов и постоянно обслуживать их. С течением времени мы будем открытыми к различным стратегиям и технологиям.
BlockBeats: Я вижу, что сооснователь Base Роуэн Стоун уже присоединился к Sapien AI в качестве главного бизнес-развития. На какой блокчейн-главной сети будет основан Sapien AI? Есть ли планы на выпуск собственного Токена?
**Тревор:**Все эти вопросы очень глубоки, и я их очень ценю. Роуэн - просто удивителен, он основал Base вместе с Джесси Поллаком, который, безусловно, является легендой. У Роуэна богатый опыт, и в создании продуктов Web3 для промышленности ему нет равных. По моему мнению, он - просто лучший. Он принимал участие и руководил мероприятием «Onchain Summer», которое, на мой взгляд, является одним из самых успешных событий, которые я помню.
Он помогает нам разрабатывать стратегии рынка в некоторых областях. Но, как я уже сказал, мы сейчас очень сосредоточены на обслуживании наших текущих клиентов - это наш главный фокус. Мы еще не приняли никаких обязательств или решений относительно выбора Layer 1 или других аспектов. Однако в будущем мы будем продолжать рассматривать различные возможности.
**BlockBeats: У Sapien AI есть какие-либо планы или цели на будущее? Какие достижения вы надеетесь достичь в ближайшие годы?
Тревор: Наша миссия - увеличить количество аннотаторов мировых данных в 100 раз и обеспечить легкий доступ каждого к этой сети. Мы хотим создать самую большую в мире сеть аннотаторов человеческих данных. Мы считаем, что это будет очень ценным активом, поэтому хотим создать и контролировать его, но в конечном итоге открыть его. Мы хотим, чтобы каждый мог получить доступ и использовать его без каких-либо ограничений.
Если мы сможем построить крупнейшую в мире сеть разметки данных, это разблокирует огромные потенциальные возможности искусственного интеллекта, потому что чем больше у нас качественных данных, тем сильнее становится искусственный интеллект и тем более он доступен для всех.
Мы надеемся, что оно будет служить всем, а не только крупным компаниям по созданию языковых моделей, которые могут себе позволить сеть из миллионов аннотаторов. Теперь любой может использовать эту сеть. Вы можете рассматривать ее как платформу «аннотации как услуга».
BlockBeats: В конце, я хотел бы спросить ваше мнение о наблюдениях и взглядах на всю отрасль. Какие потенциалы в области искусственного интеллекта, на ваш взгляд, до сих пор не были полностью исследованы?
Тревор: Я очень взволнован этой областью, и это именно поэтому мы создали Sapien AI. Здесь есть хорошие аспекты, но есть и то, что нужно предупреждать.
Хорошей стороной является то, что Децентрализация искусственного интеллекта может стать еще более автономной, демократичной, доступной и мощной. Это означает, что агенты искусственного интеллекта могут проводить сделки с собственной валютой, что также означает, что вы можете иметь больше конфиденциальности и точно знать, что содержится в модели с помощью технологии ZK.
В области защиты мы сталкиваемся с очень страшным миром, в котором искусственный интеллект становится все более централизованным, и только правительство и несколько крупных технологических компаний могут получить доступ к мощным моделям. Это довольно страшная ситуация. Поэтому открытый исходный код и децентрализованный ИИ являются средством защиты.
Для нас важнее всего данные, Децентрализация данных. Это не означает, что нельзя Децентрализация другие части стека искусственного интеллекта, такие как вычисления и сам Алгоритм. Как Transformer стал первым важным достижением в области Алгоритмов, мы уже видели больше инноваций, но всегда есть место для улучшений.
Децентрализация并不意味着你应该这么做,仅仅因为你可以Децентрализация某些东西并不意味着你就应该这么做。最终必须要有真正的价值。但就像金融和 Web3 空间的其他部分一样,AI 肯定可以从Децентрализация中受益。
BlockBeats: для предпринимателей, которые хотят войти в область AI, что бы вы посоветовали?
Тревор: Я предлагаю максимально изучить технический стек и архитектуру, чтобы по-настоящему понять. Вам не обязательно быть доктором машинного обучения, но важно понимать его принципы работы и проводить исследования. Со временем вы начнете более осознанно понимать проблемы. Это ключевой момент.
Если вы не понимаете, как это работает, вы не сможете понять, в чем проблема. И если вы не знаете, где проблема, вы не должны быть предпринимателем, потому что работа предпринимателя заключается в решении проблем.
Поэтому это ничем не отличается от других стартапов, вы должны понимать эту область. Вам не обязательно быть мировым экспертом в этой области, но достаточно разбираться в ней, чтобы понимать проблемы и пытаться их решить.