Data scientist vs data engineer : quelles différences ?

Data scientist vs data engineer : quelles différences ? Parfois confondus à leur origine, les deux profils ont désormais des rôles bien définis et complémentaires. Le renforcement de leur collaboration passe par la généralisation du MLOps.

Par définition, le data scientist a en charge la conception des IA. Associant des compétences en mathématiques, en statistiques et en algorithmie, il développe des modèles algorithmiques visant à créer de nouvelles sources de revenu, à optimiser l'existant voire à prédire l'avenir. Le data engineer intervient, lui, en amont et en aval de son travail. Il crée et maintient les pipelines de données qui alimentent le modèle. Puis, il met en place l'infrastructure adaptée à son déploiement, que ce soit sur site ou en mode cloud. Le data engineer maîtrise pour cela les plateformes big data tels que Spark ou Hadoop et les techniques de programmation associées.

Dans certaines organisations, on voit apparaître un troisième profil à mi-chemin entre le data scientist et le data engineer. Il s'agit du machine learning engineer qui est centré sur l'étape de mise en production. Quoi qu'il en soit, data scientist et data engineer doivent travailler de concert pour réussir le passage à l'échelle des projets d'IA.

Deux populations liées

"Dans certaines organisations, les deux profils travaillent chacun dans leur coin et ne se parlent pas suffisamment", déplore Didier Gaultier, directeur data science & AI chez Business & Decision et directeur pédagogique de l'École de la Data & de l'IA de l'ESN. Le frein est avant tout culturel. "Les data scientists viennent du monde des maths et de l'algorithmie et d'adaptent à la technique. A l'inverse, les data engineers viennent de l'IT et des infrastructures du big data et doivent s'adapter à la data science", reconnait Didier Gaultier. Le rattachement hiérarchique peut aussi créer de la distance. "Historiquement, les data scientists sont plus proches des équipes métier alors que les data engineers dépendent généralement de la DSI", rappelle Didier Gaultier. Heureusement, une nouvelle approche méthodologique met de l'huile dans les rouages.

"Le data engineer va reprendre les indicateurs préparer par le data scientist pour assurer le monitoring du modèle"

Comme le DevOps qui prône le dialogue entre dev et ops, le MLOps, contraction cette fois de machine learning et opérations, unifie le développement, le déploiement et le monitoring d'un modèle algorithmique. "Dans une logique d'intégration et de livraison en continu (CI/CD, ndlr), le dialogue est important pour que l'industrialisation des algorithmes soit un succès", estime Didier Gaultier. En octobre prochain, Business & Decision prévoit de lancer sa propre méthode MLOps.

Pour assurer la collaboration entre les deux populations, l'approche méthodologique seule ne suffit pas. Il faut aussi que data scientists et data engineers partagent un outillage commun. Or, là encore, Didier Gaultier observe que les deux profils utilisent encore trop souvent des plateformes distinctes pour gérer le cycle de vie du MLOps.

Du feature engineering au monitoring

Pour bien comprendre les complémentarités entre data engineer et data scientist, il faut rappeler que le rôle de ce dernier ne se limite pas à la seule modélisation. Une fois les données préparées par le data engineer, le data scientist identifie les caractéristiques d'apprentissage : numéro de client, d'article, de pièce, de dossier, d'échelle chronologique / et valeurs ou volumes associées. "Ce feature engineering permet de transformer la donnée brute en information, c'est la phase la plus importante", estime Didier Gaultier.

Le data scientist passe ensuite à la modélisation proprement dite. Une étape qui consiste à dénicher les bons algorithmes et les bons paramètres. Avec, pour notre expert, l'objectif de rendre le modèle le plus simple possible.  Cette simplicité présente des atouts. Non seulement, elle diminue les risques de biais mais elle rend le modèle à la fois plus rapide, plus facile à entraîner, moins coûteux et moins énergivore. "Avant, le data scientist avait tendance à opter pour un modèle complexe de deep learning qui allait tout résoudre. Cette position n'est aujourd'hui plus tenable. Il doit au contraire optimiser son modèle", explique le consultant. "En cela, le métier devient plus risqué. Le data scientist est responsable du modèle qu'il conçoit sur le plan éthique et écologique. Sa formation ne l'a pas préparé à cela."

"Il faut avoir trois ou quatre projets à son actif pour bien maîtriser les dimensions du métier"

Enfin, le data scientist prépare la mise en production du modèle. Il doit pour cela donner au data engineer les indicateurs de sortie qui en assurent le bon fonctionnement et qui dénotent l'absence de biais ou de dérives. "Le data engineer va reprendre ces indicateurs pour assurer le monitoring du modèle. Si tel indicateur franchit un certain seuil à la hausse ou à la baisse, il pourra être nécessaire de réentraîner le modèle."

Des salaires quasiment équivalents

En termes d'évolution de carrières, il existe des passerelles entre les deux métiers. Certains data scientists ont ainsi commencé leur carrière comme data engineer. Le passage de l'un à l'autre exige d'avoir un bon niveau en maths (algèbre linéaire, espaces vectoriels), en algorithmie et en statistiques. Une certaine séniorité est aussi nécessaire. Pour Didier Gaultier, rien ne remplace l'expérience de terrain. "Il faut avoir trois ou quatre projets à son actif pour bien maîtriser les dimensions du métier. Un data scientist est régulièrement confronté à des problèmes de qualité de la donnée voire d'ontologie", note-t-il.

Le métier de data scientist comprend plusieurs échelons. Un data scientist confirmé devient senior au bout de cinq ans expérience. Au-delà de dix ans d'ancienneté, il peut prétendre au grade de lead data scientist. Si le data engineer connaît des perspectives d'évolution plus réduites, il bénéficie d'une rémunération quasiment équivalente. Selon le site Glassdoor, un data engineer perçoit, en France, un salaire de base moyen d'un peu plus de 45 000 par an contre 46 000 euros pour son confrère.