On the generalization of machine learning models in finance : five essays on bridging the empirical gap


Thèse ou mémoire / Thesis or Dissertation

Date de publication

Autrices et auteurs

Contributrices et contributeurs

Direction de recherche

Publié dans

Date de la Conférence

Lieu de la Conférence

Éditeur

Cycle d'études

Doctorat / Doctoral

Affiliation

Mots-clés

  • Financial mathematics
  • Machine learning
  • Data Science
  • Mathématiques Financières
  • Apprentissage Automatique
  • Modèles Statistiques
  • Apprentissage Invariant
  • Tenue de Marché
  • Intelligence Artificielle
  • Mathématiques Financières, Apprentissage Automatique, Modèles Statistiques, Apprentissage Invariant, Tenue de Marché, Intelligence Artificielle, l’apprentissage profond, Arbres de Décision, Gradient Boosting, Financement haute fréquence
  • L’apprentissage profond
  • Arbres de Décision
  • Statistical models
  • Gradient Boosting
  • Financement haute fréquence
  • Invariant learning
  • Market making
  • Artificial Intelligence
  • Out-of-Distribution Generalization
  • Gradient Boosting
  • High-Frequency Finance
  • Probability

Organisme subventionnaire

Résumé

Cette thèse contient une courte collection d'articles de recherche contribuant aux domaines des mathématiques financières et de l'apprentissage automatique. L'accent est mis sur le réalisme, en identifiant les aspects de la théorie existante qui décrivent de manière inexacte la réalité et en corrigeant ces aspects. Cette idée est présentée de manière très poignante dans le premier article, La dérive négative d'un remplissage d'ordre limité. Il s’agit d’une nouvelle interprétation de la dynamique de l’exécution des ordres limités dans la finance à haute fréquence. L'étude associe un modèle probabiliste théorique à une analyse de données réelles pour montrer que les ordres limités sont impactés par le processus de prix d'une manière cohérente et négative, qui reste à décrire par la communauté de la recherche financière. Le deuxième article, Era Splitting : Invariant Learning for Decision Trees, applique les idées du domaine de la généralisation hors distribution (OOD) aux arbres de décision améliorés par gradient (GBDT). Le paradigme traditionnel de l'apprentissage supervisé repose sur le principe empirique de minimisation des risques (ERM), qui suppose que les données dans l'échantillon et hors échantillon suivent la même distribution. La réalité est différente, notamment dans le domaine des données financières, où les distributions et les relations changent au fil du temps. L'article passe en revue certaines théories majeures du domaine de la généralisation des OOD, conduisant au développement de deux nouveaux critères de division pour les GBDT. Les nouveaux critères de fractionnement conduisent à de meilleures performances hors échantillon avec un écart de généralisation réduit. Les trois derniers articles abordent des sujets liés aux systèmes de vision approfondie pour la prédiction alpha à court terme, à l'apprentissage profond pour la détection des fraudes et à un pipeline d’apprentissage automatique complet de bout en bout pour le trading sur le marché à terme. Dans chaque étude, l’analyse statistique et les arguments théoriques confirment que cette recherche élargit et améliore l’ensemble des outils permettant de comprendre la véritable nature des marchés financiers.


This thesis contains a short collection of research articles contributing to the fields of financial mathematics and machine learning. The emphasis is on realism, identifying aspects of existing theory which inaccurately describe reality, and correcting those aspects. This idea is most poignantly presented in the first article, The Negative Drift of a Limit Order Fill. This is a new interpretation of the dynamics of limit order fills in high-frequency finance. The study melds a theoretical probabilistic model with real-world data analysis to show that limit orders are impacted by the price process in a consistent, negative way, yet to be described by the financial research community. The second article, Era Splitting: Invariant Learning for Decision Trees, applies ideas from the field of out-of-distribution generalization (OOD) to gradient boosted decision trees (GBDTs). The traditional supervised learning paradigm relies on the empirical risk minimization (ERM) principle , which assumes in-sample and out-of-sample data follow the same distribution. Reality is different, especially in financial data, where distributions shift and relationships change as time goes by. The article reviews some leading theory from the field OOD generalization, leading to the the development of two new splitting criteria for GBDTs. The new splitting criteria lead to improved out-of-sample performance with a reduced generalization gap. The last three articles move through topics in deep vision systems for short-term alpha prediction, deep learning for fraud detection, and a complete end-to-end ML pipeline for trading in the futures market. In each study, statistical analysis and theoretical arguments substantiate that this research expands and improves the tool set for understanding the true nature of financial markets.

Table des matières

Notes

Notes

Autre version linguistique

Ensemble de données lié

Licence

Approbation

Évaluation

Complété par

Référencé par

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Sauf si le document est diffusé sous une licence Creative Commons, il ne peut être utilisé que dans le cadre d'une utilisation équitable et non commerciale comme le prévoit la Loi (i.e. à des fins d'étude privée ou de recherche, de critique ou de compte-rendu). Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.