Characterizing and Optimizing Distributed Machine Learning Systems : Towards a  Multi-Objective Approach

Yasmine Djebrouni

Résumé

The past decade has witnessed a significant rise in the utilization of Machine Learning (ML) across various domains. This is attributed to the design of powerful learning techniques and advancements in hardware, enabling the development of sophisticated ML systems. However, the exponential growth of ML workloads from the utilization of massive datasets has outpaced ML systems’ capabilities. This has led to the emergence of Distributed Machine Learning (DML), involving the execution of ML algorithms on distributed platforms. DML presents numerous challenges, including configuration complexity and models’ fairness concerns. In the first part of this thesis, we address the configuration challenge in DML systems deployed in data centers. We conduct extensive experiments to collect DML workload traces and analyze their performance under different configurations, shedding light on the impact of tuning strategies. We show that the multi-level parameter tuning (i.e., hyper-parameters and platform parameters jointly tuned) improves model quality and training time, while also optimizing resource costs. In the second part, we focus on Federated Learning (FL), a contemporary DML paradigm designed for privacy-preserving collaborative learning across distributed nodes. We address the significant challenge of bias and unfairness in FL models outcomes. To tackle this is- sue, we propose the ASTRAL framework for bias mitigation in FL models, demonstrating its effectiveness in mitigating bias while maintaining accuracy.

La dernière décennie a vu une augmentation significative de l’utilisation de l’apprentissage machine (ML) dans divers domaines. Cette évolution est attribuée aux nouvelles techniques puissantes d’apprentissage et aux progrès du matériel, qui ont permis le développement de systèmes d’apprentissage machine avancés. Cependant, la croissance exponentielle des traitements de l’apprentissage machine due à l’utilisation d’énormes ensembles de données a dépassé les capacités des systèmes ML. Cela a conduit à l’émergence de l’apprentissage machine distribué (DML), qui implique l’exécution d’algorithmes de ML sur des plateformes distribuées. Le DML présente plusieurs défis, notamment la complexité de configuration et des problèmes d’équité des modèles. Dans la première partie de cette thèse, nous abordons le défi de la configuration des systèmes DML déployés dans les centres de données. Nous menons des expériences approfondies pour collecter des traces de traitements DML et analyser leur performance sous l’impact de différentes stratégies de configuration. Nous montrons que la configuration conjointe des hyperparamètres et des paramètres de la plateforme améliore la qualité du modèle et le temps d’entrainement, tout en optimisant les coûts. Dans la deuxième partie, nous nous concentrons sur l’apprentissage fédéré (FL), un paradigme DML contemporain conçu pour l’apprentissage collaboratif préservant la confidentialité. Nous nous attaquons à un défi important de l’apprentissage fédéré, à savoir le biais dans les résultats des modèles. Pour résoudre ce problème, nous proposons la plateforme ASTRAL pour la mitigation du biais dans les modèles FL. Nous montrons son efficacité dans l’atténuation des biais tout en maintenant la précision.

Characterizing and Optimizing Distributed Machine Learning Systems : Towards a Multi-Objective Approach

Caractérisation et Optimisation des Systèmes d'Apprentissage Machine Distribué : Vers une Approche Multi-Objectif

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager