В эпоху, когда генеративный AI стремительно поглощает открытые данные, Википедия официально преобразовала отношения «бесплатного использования» в коммерческое соглашение: от Microsoft, Google, Amazon до новых AI-компаний — теперь все должны получать доступ к Википедии через лицензионные соглашения и платные услуги.
(Предыстория: Grok заменит Википедию? Маск раскрыл, что xAI разрабатывает «Grokipedia»: значительное улучшение по сравнению с Wikipedia)
(Дополнительный фон: Вейджи впервые оценил LLM: Grok по сути спасает платформу X «способствуя распространению правды», но всё ещё содержит много галлюцинаций)
Содержание статьи
Фонд Викимедиа отмечает 25-ю годовщину основания Википедии, запускает серию мероприятий и обновлений технологий, а также ясно дает понять, что крупнейшая онлайн-энциклопедия мира — это не только «бесплатная база знаний», но и ключевая инфраструктура для подписания лицензионных соглашений с несколькими гигантами AI и официальных бизнес-переговоров.
Википедия в настоящее время содержит более 65 миллионов статей, охватывает более 300 языков, и ежемесячно её посещают почти 15 миллиардов раз. Это единственная платформа среди топ-10 сайтов по трафику, управляемая некоммерческой организацией, и один из важнейших высококачественных открытых датасетов для крупных языковых моделей.
За последние годы, с ростом генеративного AI, зависимость технологических компаний от контента Википедии быстро увеличилась. В ответ на этот спрос и для обеспечения финансовой устойчивости, Викимедиа разработала коммерческий продукт Wikimedia Enterprise, предназначенный для масштабного повторного использования и распространения контента.
В своем последнем заявлении фонд сообщил, что такие компании, как Ecosia, Microsoft, Mistral AI, Perplexity, Pleias, ProRata, уже стали новыми партнерами, присоединившись к существующим гигантам — Amazon, Google, Meta.
Это означает, что компании, ранее просто извлекающие контент Википедии для поиска или обучения AI, теперь начинают получать доступ по «лицензионному сотрудничеству»: Wikimedia Enterprise предоставляет API или поток данных в зависимости от требований по задержке, стабильности и формату данных, а компании платят фонд Викимедиа, чтобы поддерживать некоммерческую деятельность и инвестиции в инфраструктуру.
Викимедиа в своем заявлении подчеркнуло, что Википедия считается одним из «самых качественных» открытых датасетов для обучения крупных языковых моделей. Причина в том, что её содержание поддерживается около 250 000 активных волонтеров-редакторов, соблюдающих строгие стандарты нейтральности, проверяемости и надежных источников, а также прошло долгий процесс редакционной истории и общественного контроля — эти структурные активы трудно воссоздать разработчикам моделей самостоятельно.
Для компаний AI получение контента Википедии — это не только вопрос легальности и этики лицензирования, но и качество вывода модели и способность к точному отражению фактов; для Викимедиа — это превращение пассивного трафика в предсказуемый источник дохода, что позволяет поддерживать серверы, межъязыковое сообщество и долгосрочные инвестиции в развитие технологий.
Интересно, что несмотря на заключение лицензионных соглашений с несколькими гигантами AI, в собственной стратегии использования AI Викимедиа постоянно подчеркивает «приоритет человека»: роль AI — помогать волонтерам-редакторам, а не заменять их.
Фонд планирует использовать AI для обнаружения вандальных правок, маркировки потенциально проблемных статей, помощи в переводах и поиске контента, чтобы редакторы могли сосредоточиться на анализе источников, написании и управлении сообществом.
Генеральный директор Мариана Искандер заявила, что основная ценность Википедии — это «знания, созданные людьми», и даже в эпоху AI платформа сохранит структуру управления глобальным сообществом волонтеров; инструменты AI — это лишь помощь в снижении порога участия, а не управление содержанием.