2 juin 2021 725 mots, 3 min. de lecture

Data preparation : comment gagner 85% de temps de traitement

Par Pierre-Nicolas Schwab Docteur en marketing, directeur de IntoTheMinds
Dans un article précédent j’avais réalisé un benchmark de 4 solutions ETL pour le traitement d’un fichier d’un milliard de lignes. Aujourd’hui je teste l’effet du SSD et des formats de fichiers propriétaires sur la vitesse de traitement dans Alteryx, […]

Dans un article précédent j’avais réalisé un benchmark de 4 solutions ETL pour le traitement d’un fichier d’un milliard de lignes. Aujourd’hui je teste l’effet du SSD et des formats de fichiers propriétaires sur la vitesse de traitement dans Alteryx, Tableau Prep, Talend et Anatella. Les résultats sont assez inattendus.

Introduction et rappel

Dans mon analyse précédente j’avais comparé la vitesse de traitement de 4 solutions de data preparation : Alteryx, Talend, Tableau Prep et Anatella.

Après sa publication sur les réseaux sociaux, plusieurs voix s’étaient élevées pour critiquer le fond (pourquoi tester la vitesse de traitement ?) et la forme (pourquoi ne pas optimiser la configuration en plaçant le fichier à traiter sur un SSD ?).

J’ai défendu mes choix sur le test de la vitesse en expliquant mes frustrations devant la lenteur de certaines solutions d’une part, et en rappelant d’autre part que le temps de traitement coûte cher :

  • en minutes passées à attendre devant sa machine d’une part
  • en coûts de processing dans le cloud ensuite.

Rappelez-vous en effet que votre facture « cloud » est avant tout constituée de frais pour la location des CPU’s. Le stockage est devenu une commodité très abordable.

Si vous choisissez une solution ETL « no code », vous avez donc tout intérêt à en choisir une qui est rapide, surtout si vous travaillez dans le cloud et que vous l’utilisez souvent.


ETL’s : Alteryx vs. Tableau Prep vs. Talend vs. Anatella

Le choix des ETL’s à comparer est tout à fait arbitraire. Il s’agit simplement de ceux auxquels j’ai accès :

  • Talend Open Studio v7.3.1
  • Tableau Prep 2020.2.1
  • Alteryx 2020.1
  • Anatella v2.35

La première n’est pas un outil de « data preparation » per se. La dernière est une solution très bien classée dans le benchmark G2 (catégorie « high performer). Je la pratique depuis des années.

Venons-en maintenant aux résultats. Combien de temps prend le traitement d’un dataset d’un milliard de lignes stockée sur un SSD ?


Résultats : effet d’un SSD sur le temps de traitement des ETL’s

Avant toute chose je rappelle que je suis parti d’un fichier csv de 43,6 Go (c’est gros !) et que j’ai effectué 2 opérations simples (un tri et un « group by »). Je vous renvoie à l’article initial pour toutes les schémas des filières de traitement des données.  Initialement le traitement a tourné sur un HDD avec une vitesse de pointe de 7200 tours/minutes.

Pour ce nouveau test j’ai déplacé les fichiers sur mon SSD et ai fait tourner à 3 fois chaque requête. J’ai pris la valeur la moins élevée des 3 (moins de 1% de différence a été constaté entre les 3 mesures).

sans SSD avec SSD différence
Alteryx 2290 1609 -30,1%
Anatella 730 679 -6,9%
Tableau Prep 2526 2691 +6,5%
Talend 13954 14340 +2,7%

Les résultats sont interpellant. Alors que j’escomptais un effet de l’utilisation su SSD, au final il n’y en a quasiment pas, sauf dans le cas d’Anatella où on constate une diminution du temps de traitement de 6,9% et avec Alteryx où la baisse est de 30,1%. Le traitement sous Talend dure toujours une éternité, et sous Tableau Prep il y a une légère augmentation.

Heureusement j’avais encore une carte à jouer … et cella-là va se révéler payante.

Résultats : effet du format propriétaire de données sur le temps de traitement

L’autre piste que j’ai souhaité investiguer est celle du format de fichier. Alteryx et Anatella proposent des formats de fichiers propriétaires qui sont censés améliorer les performances. Il s’agit respectivement de .yxdb, et .gel
J’ai donc remplacé le fichier csv de 50 Go par un fichier aux formats propriétaires respectifs. Et comme vous pouvez le voir le résultat est spectaculaire.

SSD + fichier csv SSD + format de fichier propriétaire Différence
Alteryx 1609 1116 -30,6%
Anatella 679 96 -85,8%

 


Conclusions

La première conclusion que je tire est que le SSD n’apporte pas forcément un gain en termes de temps de traitement. Tout dépend de la solution utilisée.

Si une accélération est perceptible avec Alteryx et Anatella, le gain le plus notable est atteint lorsque le format de fichier propriétaire est utilisé. Avec Anatella en particulier le temps de traitement est optimisé à l’extrême et passe à 96 secondes.

 

 



Publié dans Data et IT.

Donnez votre avis

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *