17 juin 2022 808 mots, 4 min. de lecture

ETL : Anatella en version web avec des performances de haut niveau

Par Pierre-Nicolas Schwab Docteur en marketing, directeur de IntoTheMinds
Si vous vous intéressez à la data science, vous savez que la préparation des données (ou « data prep ») est une étape très chronophage. C’est pourquoi le choix d’un bon logiciel d’ETL est si important. En la matière, ma solution préférée […]

Si vous vous intéressez à la data science, vous savez que la préparation des données (ou « data prep ») est une étape très chronophage. C’est pourquoi le choix d’un bon logiciel d’ETL est si important. En la matière, ma solution préférée s’appelle Anatella. J’apprécie notamment ses qualités en termes de rapidité et la richesse des transformations proposées. Alors forcément, quand un nouveau produit arrive sur le marché je suis toujours enthousiaste. En l’occurrence il s’agit de la version web d’Anatella qui permet à la société éditrice Timi de proposer un tarif très disruptif.


Anatella on web : ce qui change au niveau de l’interface

A ceux qui utilisent Anatella dans sa version desktop, la version web ne devrait pas trop les désorienter. La seule différence notable est la présence d’une fenêtre sur la gauche qui sert d’intermédiaire pour la gestion de vos fichiers. Dès lors le glisser-déposer des fichiers doit se faire sur cette fenêtre et plus dans la fenêtre d’Anatella elle-même.

anatella web version

Pour le reste rien ne change. Dès l’identification, la fenêtre s’ouvre et s’adapte à la résolution de votre écran. Vous retrouvez immédiatement vos repères et je dois avouer que c’est un avantage indéniable comparé à certaines solutions dont la solution web est différente.


Quelques fonctionnalités spécifiques

Au menu de cette version web, on notera quelques fonctionnalités spécifiques supplémentaires. L’une d’entre elle est particulièrement opportune puisqu’il s’agit d’un partage d’écran intégré. La solution, fournie par Beyond SSL, vous permet donc de collaborer en temps réel à plusieurs dans une fenêtre d’Anatella. J’ai trouvé cela extrêmement pratique et intelligent. Plus besoin d’installer un logiciel supplémentaire comme AnyDesk. Tout est intégré dans Anatella.

L’autre nouveauté concerne le téléchargement des fichiers. Dans la version locale d’Anatella il faut utiliser un connecteur de type « output » pour extraire les données à l’endroit voulu. Cette option est bien entendu toujours disponible puisqu’elle constitue le cœur de l’ETL. La version propose en plus l’option de télécharger directement les données en sortie (voir capture d’écran ci-dessous). C’est un ajout mineur mais qui au final peut vous faire gagner un peu de temps si vous ne vous rappelez plus l’endroit où les données s’enregistrent.

download anatella web


Des performances bluffantes

Les versions web des autres ETL que j’avais testées jusqu’à présent ne m’avaient jamais vraiment étonnés. La faute sans doute à l’architecture et à la construction même du software. C’est donc avec curiosité que j’ai lancé une opération sur 1 milliard de lignes. La surprise était au rendez-vous puisque les résultats de mon précédent benchmark ont été explosés.

1 billion lines handled on anatella web versionAlors que dans mon dernier benchmark il fallait 760 secondes pour réaliser l’opération, la version web d’Anatella s’en tire en 35,59 secondes. La raison est à chercher du côté de la machine virtuelle sur laquelle tourne Anatella. Même en chargeant un fichier plat de 10 Go avec un milliard de lignes sur la machine virtuelle, l’opération est réalisée en à peine 72,63 secondes.

Le choix du CPU est la conséquence directe d’un article dans lequel Frank Vanden Berghen, l’inventeur d’Anatella, comparait les performances single-threading et multi-threading de toute une série de CPU’s. A l’issue de ce benchmark c’est l’AMD Ryzen 9 5950x qui se détachait du lot (il est entouré sur le graphique ci-dessous). C’est donc de CPU qui équipe la machine virtuelle sur laquelle tourne la version web d’Anatella.

best cpu for data science

Benchmark des différents CPUs du marché pour des applications de type data science (crédit : Timi).


Une offre intéressante

La mise sur le marché de cette version web permet à l’éditeur Timi de proposer une offre de lancement très alléchante à 99€/mois. Le prix normal sera de 499€/mois. Mais même à ce prix c’est extrêmement concurrentiel. Dans la version web votre ETL est en effet directement opérationnel, parfaitement configuré et super performant grâce à une machine dernier cri. En plus la formule d’abonnement mensuelle vous permet de ne réduire vos coûts au minimum si vous le souhaitez. C’est assez disruptif sur un marché où la licence annuelle est la règle.

Cerise sur le gâteau, pour ce prix vous bénéficiez aussi d’un espace de stockage de 200Gb (sur SSD) ce qui ne gâche rien. Enfin, pour répondre aux prérogatives des plus sensibles, le serveur est en Europe et la société qui héberge vos données est européenne. Une bonne façon de se mettre 100% en règle avec le RGPD et le Cloud Act.

Pour en savoir plus, rendez-vous sur le site de Timi.



Publié dans Data et IT.

Donnez votre avis

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *