Процесс отбора ETF и основные моменты, на которые следует обратить внимание

PortfolioAlert · 2026-03-21T13:40:06+00:00

Статья описывает серию шагов по отбору и фильтрации ETF, обеспечивая ликвидность выбранных ETF, достаточность исторических данных и низкую корреляцию динамики. Во-первых, путем получения списка ETF и исключения ETF с низкой ликвидностью, затем расчета дневных доходов и применения кластерного анализа K-Means для удаления дубликатов. Затем использование коэффициента корреляции для дальнейшего снижения корреляции, рассмотрение вопроса об исключении недавно созданных ETF. Наконец, подчеркивается специальная обработка государственных облигационных ETF и выбор стратегии для падающих ETF, обеспечивая разнообразие и высокое качество окончательно отобранных ETF.

PortfolioAlert

2026-03-21 13:40:06

Генерация тезисов в процессе

I. Получение базовых данных и предварительная фильтрация

Получение списка ETF: через get_all_securities([‘etf’]) получить все ETF на рынке, отфильтровать те, что были созданы до 1 января 2013 года (start_date < 2013-01-01), чтобы обеспечить достаточную историческую информацию.
Исключение ETF с низкой ликвидностью: вручную исключить определённые ETF с низким средним объёмом торгов (например, 159003.XSHE招商快线ETF, 159005.XSHE汇添富快钱ETF и др.), средний объём торгов ≤ 2.92k.

II. Ежедневные данные по ETF и расчет доходности

Диапазон данных: получить цены закрытия за последние 240 торговых дней до текущей даты (today).
Обработка доходности: вычислить дневную доходность (pchg = close.pct_change()), сформировать матрицу доходностей ETF (prices, строки — торговые дни, столбцы — коды ETF).

III. Кластеризация методом K-средних для устранения дублирования (на основе сходства трендов)

Цель кластеризации: сгруппировать ETF с похожими трендами, чтобы уменьшить количество дублирующих активов.
Параметры: число кластеров n_clusters=30 (чтобы избежать слишком малого числа кластеров, что может привести к объединению несхожих ETF), алгоритм — KMeans, случайное состояние random_state=42.
Отбор внутри кластера: оставить только ETF с самой ранней датой основания, поскольку:
— более раннее основание обычно связано с большим объёмом торгов (лучше ликвидность);
— больше исторических данных (что полезно для обучения модели).

IV. Оценка эффективности кластеризации с помощью коэффициента силуэта

Вычисление коэффициента силуэта: примерно 0.4512 (средний уровень), что говорит о умеренной плотности кластеров и их разделении, но требует дальнейшей оптимизации.

V. Вторичная фильтрация по коэффициенту корреляции (для снижения взаимной корреляции)

Матрица корреляции: расчет корреляционной матрицы доходностей ETF (corr = prices[df.code].corr()).
Обработка высоко коррелированных пар: оставить только те пары ETF, у которых коэффициент корреляции > 0.85, и из каждой пары оставить только ETF с более ранним основанием, остальные исключить (например, исключить 159922.XSHE, 512100.XSHG и др.).

VI. Опционально: фильтрация ETF с поздним основанием (для повышения качества данных)

Установка порога: исключить ETF, созданные после 2020 года (например, 513060.XSHG恒生医疗, 515790.XSHG光伏ETF и др.), чтобы оставить только те, у которых более богатая историческая база данных (подходит для обучения моделей).

VII. Важные замечания и дополнительные рекомендации

Особая обработка государственных облигационных ETF: при использовании для обучения модели необходимо исключить 511010.XSHE国债ETF — его тренд почти линейный (похож на余额宝), очень малые колебания, что мешает модели учиться на волатильных характеристиках, и предсказание для него не требуется.
Отбор ETF с падением: в итоговом списке могут оказаться ETF с долгосрочным снижением (например, ETF по медицине, недвижимости), их исключение зависит от целей стратегии:
— для стабильной доходности их можно исключить;
— если стратегия показывает хорошие результаты даже с ETF, снижающимися в цене, это может свидетельствовать о высокой устойчивости стратегии (но нужно учитывать риск «функции будущего», невозможно предсказать, изменится ли тренд у падающих ETF).
Визуальная проверка: построить графики оставшихся ETF (например, с ценами закрытия с 2017 года), вручную проверить, соответствуют ли корреляции ожидаемым (низкая корреляция и разумное распределение).

Общая логика окончательной фильтрации:
через «начальную фильтрацию → кластеризацию для устранения дублирования → вторичную фильтрацию по корреляции → (опционально) фильтрацию по дате основания» получить пул ETF с хорошей ликвидностью, низкой взаимной корреляцией и богатой историей, что обеспечивает разнообразие и качество базовых активов для стратегий или моделей.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .