Процес відбору ETF та основні моменти, що слід враховувати

robot
Генерація анотацій у процесі
  • І. Отримання базових даних та попередня фільтрація

Отримання списку ETF: через get_all_securities([‘etf’]) отримати всі ETF ринку, відібрати ті, що створені до 01.01.2013 (start_date < 2023-01-01), щоб забезпечити достатню історичну базу даних.
Вилучення ETF з низькою ліквідністю: вручну виключити конкретні ETF з низьким середнім обсягом торгів (наприклад, 159003.XSHE招商快线ETF, 159005.XSHE汇添富快钱ETF тощо, середній обсяг ≤ 2.92kw).

  • ІІ. Щоденні дані ETF та розрахунок доходності
    Діапазон даних: отримати цінові дані закриття за останні 240 торгових днів до поточної дати (today).
    Обробка доходності: обчислити щоденну доходність (pchg = close.pct_change()), сформувати матрицю доходностей ETF (prices, рядки=торгові дні, стовпці=код ETF).
  • ІІІ. Кластеризація K-Means для видалення дублікатів (на основі схожості трендів)
    Мета кластеризації: об’єднати ETF з подібними трендами у один кластер, щоб зменшити кількість дублікатів.
    Налаштування параметрів: кількість кластерів n_clusters=30 (щоб уникнути занадто малих кластерів, що можуть об’єднати несхожі ETF), алгоритм KMeans, випадкове насіння random_state=42.
    Вибір у межах кластера: залишити в кожному кластері ETF з найранішим датою створення, оскільки:
    • раніше створені → зазвичай більший обсяг торгів (краща ліквідність);
    • раніше створені → більше історичних даних (для тренування моделей).
  • ІV. Оцінка ефективності кластеризації за допомогою силуету
    Обчислення коефіцієнта силуету: 0.4511880967361387 (середній рівень, показує, що внутрішня щільність кластерів і їхня відокремленість цілком прийнятні, але потребують подальшої оптимізації).
  • V. Другий рівень фільтрації за кореляційною матрицею (для зниження кореляції)
    Обчислення кореляційної матриці: corr = prices[df.code].corr() для доходностей ETF.
    Високі кореляції: відібрати пари ETF з коефіцієнтом > 0.85, з кожної пари залишити той ETF, що був створений раніше, інші виключити (наприклад, виключити 159922.XSHE, 512100.XSHG тощо).
  • Шостий пункт (опційно): фільтрація ETF, створених пізніше 2020 року (для підвищення якості даних)
    Встановити поріг: виключити ETF, створені після 2020 року (наприклад, 513060.XSHG恒生医疗, 515790.XSHG光伏ETF тощо), щоб залишити ті, що мають більш багату історію даних (для тренування моделей).
  • VII. Зауваження та додаткові рекомендації
    Спеціальна обробка державних облігаційних ETF: якщо їх використовують для тренування моделей, потрібно виключити 511010.XSHE國債ETF — його тренд майже лінійний (подібно до余额宝), мінімальні коливання, що заважатимуть моделі вчитися на волатильності, і немає необхідності у прогнозуванні.
    Вибір ETF з падінням: у результаті можуть бути ETF з довгостроковим падінням (наприклад, медичні ETF, ETF нерухомості), їх виключення залежить від стратегії:
    • для стабільного доходу — виключити;
    • якщо стратегія показує хороші результати навіть з ETF, що падають, можливо, стратегія є стійкою (але слід враховувати ризик “функції майбутнього”, оскільки неможливо передбачити, чи повернуться ETF з падінням).
      Візуальна перевірка: побудувати графіки залишкових ETF (наприклад, ціни закриття з 2017 року), вручну перевірити, чи відповідає кореляція очікуванням (низька кореляція, розподіл логічний).
      Підсумок логіки остаточного відбору:
      через “початкову фільтрацію → кластеризацію для зменшення дублікатів → другий рівень фільтрації за кореляцією → (опційно) фільтрацію за датою створення” отримати пул ETF з високою ліквідністю, низькою кореляцією трендів і достатньою історією даних, щоб забезпечити різноманітність і якість для стратегії або моделі.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити