Tech Talk: Est-il possible de faire de l'ETL dans le cloud sans coder ? (Partie 1)

ETL représente un modèle de déplacement des données et signifie Extraire (d'une source), Transformer (les données extraites) et Charger (les données transformées).

Il y a une tendance à déplacer toutes les solutions de données de sur site vers le cloud. Un argument frappant pourrait être la possibilité de diminuer le coût total de possession. Dans cette série Tech Talks en 3 parties sur l'ETL, nous nous concentrons sur les capacités des outils de données fournis par deux grands acteurs du cloud - Amazon Web Services (AWS) et Azure.

Image de https://www.informatica.com/nl/resources/articles/what-is-etl.html

La question fondamentale : qu'est-ce que l'ETL ?

L'ETL représente un modèle de mouvement de données typique et signifie Extraire (d'une source), Transformer (les données extraites), et Charger (les données transformées, généralement dans une base de données, un fichier CSV, des feuilles Excel, ou un lac de données). Vous sauvegardez également généralement les données extraites dans un stockage cloud (S3 ou blobs). Donc, le nom de ce processus devrait probablement être ELT, ou même ELTL, parce que vous chargez (ou sauvegardez si vous préférez) les données au moins deux fois.

ETL et codage dans le cloud

Si vous êtes ici pour une réponse rapide à la question posée dans le titre : Non, l'ETL dans le cloud n'existe pas sans codage, sauf dans quelques scénarios simples que vous ignoreriez typiquement.

Laissez-moi développer cela. Dans l'ETL, vous n'extrayez pas deux tables d'une source, les rejoignez et chargez la table résultante dans la base de données de votre fournisseur préféré. Au lieu de cela, vous traitez des dizaines ou centaines de tables de différentes sources. Ensuite, vous devez créer des champs/colonnes calculés complexes. Enfin, vous devez charger les résultats selon différents modes tels que remplacer, ajouter, etc. Cela signifie qu'il y aura (presque) toujours plus de combinaisons d'opérations que celles prévues par les fournisseurs de cloud et offertes prêtes à l'emploi.

Scénarios auxquels vous pourriez faire face : code ou pas de code ?

Comme nous avons trois étapes dans le processus, il y a trois sources possibles de limitations et diverses questions à répondre :

Extraction. Existe-t-il un connecteur à cette source de données ? Pouvons-nous extraire en masse ? Scanner non seulement les tables mais aussi les vues et les vues matérialisées ? Les sauvegarder en parquet ?
Transformation. De quelle sorte de transformations et agrégations avons-nous besoin ? Pouvons-nous facilement déboguer et prévisualiser les données lors de la phase de développement ?
Chargement. Existe-t-il un connecteur vers le récepteur de données souhaité ? Quels formats sont acceptés ? Pouvons-nous charger en masse ? Pouvons-nous choisir le mode de chargement ?

Si la réponse est non à l'une de ces questions, vous devrez personnaliser le processus en écrivant du code. Pour commencer, si vous regardez les outils cloud populaires comme Azure Data Factory et AWS Glue, vous trouverez quelques modèles de base pour des scénarios simples. En d'autres termes, il existe des outils UI donnés, mais le codage représente probablement encore 80 % de chaque projet ETL. Les langages de programmation ETL les plus populaires sont Python, Scala, et SQL.

Prochains Tech Talks sur l'ETL

Dans les parties 2 et 3, nous décrirons deux cas dans lesquels nous avons utilisé Azure Data Factory et AWS Glue pour aider les clients à établir leurs flux ETL et entrepôts de données.

Il y a une tendance à déplacer toutes les solutions de données de sur site vers le cloud. Un argument frappant pourrait être la possibilité de diminuer le coût total de possession. Dans cette série Tech Talks en 3 parties sur l'ETL, nous nous concentrons sur les capacités des outils de données fournis par deux grands acteurs du cloud - Amazon Web Services (AWS) et Azure.

Image de https://www.informatica.com/nl/resources/articles/what-is-etl.html

La question fondamentale : qu'est-ce que l'ETL ?

L'ETL représente un modèle de mouvement de données typique et signifie Extraire (d'une source), Transformer (les données extraites), et Charger (les données transformées, généralement dans une base de données, un fichier CSV, des feuilles Excel, ou un lac de données). Vous sauvegardez également généralement les données extraites dans un stockage cloud (S3 ou blobs). Donc, le nom de ce processus devrait probablement être ELT, ou même ELTL, parce que vous chargez (ou sauvegardez si vous préférez) les données au moins deux fois.

ETL et codage dans le cloud

Si vous êtes ici pour une réponse rapide à la question posée dans le titre : Non, l'ETL dans le cloud n'existe pas sans codage, sauf dans quelques scénarios simples que vous ignoreriez typiquement.

Laissez-moi développer cela. Dans l'ETL, vous n'extrayez pas deux tables d'une source, les rejoignez et chargez la table résultante dans la base de données de votre fournisseur préféré. Au lieu de cela, vous traitez des dizaines ou centaines de tables de différentes sources. Ensuite, vous devez créer des champs/colonnes calculés complexes. Enfin, vous devez charger les résultats selon différents modes tels que remplacer, ajouter, etc. Cela signifie qu'il y aura (presque) toujours plus de combinaisons d'opérations que celles prévues par les fournisseurs de cloud et offertes prêtes à l'emploi.

Scénarios auxquels vous pourriez faire face : code ou pas de code ?

Comme nous avons trois étapes dans le processus, il y a trois sources possibles de limitations et diverses questions à répondre :

Extraction. Existe-t-il un connecteur à cette source de données ? Pouvons-nous extraire en masse ? Scanner non seulement les tables mais aussi les vues et les vues matérialisées ? Les sauvegarder en parquet ?
Transformation. De quelle sorte de transformations et agrégations avons-nous besoin ? Pouvons-nous facilement déboguer et prévisualiser les données lors de la phase de développement ?
Chargement. Existe-t-il un connecteur vers le récepteur de données souhaité ? Quels formats sont acceptés ? Pouvons-nous charger en masse ? Pouvons-nous choisir le mode de chargement ?

Si la réponse est non à l'une de ces questions, vous devrez personnaliser le processus en écrivant du code. Pour commencer, si vous regardez les outils cloud populaires comme Azure Data Factory et AWS Glue, vous trouverez quelques modèles de base pour des scénarios simples. En d'autres termes, il existe des outils UI donnés, mais le codage représente probablement encore 80 % de chaque projet ETL. Les langages de programmation ETL les plus populaires sont Python, Scala, et SQL.

Prochains Tech Talks sur l'ETL

Dans les parties 2 et 3, nous décrirons deux cas dans lesquels nous avons utilisé Azure Data Factory et AWS Glue pour aider les clients à établir leurs flux ETL et entrepôts de données.

Il y a une tendance à déplacer toutes les solutions de données de sur site vers le cloud. Un argument frappant pourrait être la possibilité de diminuer le coût total de possession. Dans cette série Tech Talks en 3 parties sur l'ETL, nous nous concentrons sur les capacités des outils de données fournis par deux grands acteurs du cloud - Amazon Web Services (AWS) et Azure.

Image de https://www.informatica.com/nl/resources/articles/what-is-etl.html

La question fondamentale : qu'est-ce que l'ETL ?

L'ETL représente un modèle de mouvement de données typique et signifie Extraire (d'une source), Transformer (les données extraites), et Charger (les données transformées, généralement dans une base de données, un fichier CSV, des feuilles Excel, ou un lac de données). Vous sauvegardez également généralement les données extraites dans un stockage cloud (S3 ou blobs). Donc, le nom de ce processus devrait probablement être ELT, ou même ELTL, parce que vous chargez (ou sauvegardez si vous préférez) les données au moins deux fois.

ETL et codage dans le cloud

Si vous êtes ici pour une réponse rapide à la question posée dans le titre : Non, l'ETL dans le cloud n'existe pas sans codage, sauf dans quelques scénarios simples que vous ignoreriez typiquement.

Laissez-moi développer cela. Dans l'ETL, vous n'extrayez pas deux tables d'une source, les rejoignez et chargez la table résultante dans la base de données de votre fournisseur préféré. Au lieu de cela, vous traitez des dizaines ou centaines de tables de différentes sources. Ensuite, vous devez créer des champs/colonnes calculés complexes. Enfin, vous devez charger les résultats selon différents modes tels que remplacer, ajouter, etc. Cela signifie qu'il y aura (presque) toujours plus de combinaisons d'opérations que celles prévues par les fournisseurs de cloud et offertes prêtes à l'emploi.

Scénarios auxquels vous pourriez faire face : code ou pas de code ?

Comme nous avons trois étapes dans le processus, il y a trois sources possibles de limitations et diverses questions à répondre :

Extraction. Existe-t-il un connecteur à cette source de données ? Pouvons-nous extraire en masse ? Scanner non seulement les tables mais aussi les vues et les vues matérialisées ? Les sauvegarder en parquet ?
Transformation. De quelle sorte de transformations et agrégations avons-nous besoin ? Pouvons-nous facilement déboguer et prévisualiser les données lors de la phase de développement ?
Chargement. Existe-t-il un connecteur vers le récepteur de données souhaité ? Quels formats sont acceptés ? Pouvons-nous charger en masse ? Pouvons-nous choisir le mode de chargement ?

Si la réponse est non à l'une de ces questions, vous devrez personnaliser le processus en écrivant du code. Pour commencer, si vous regardez les outils cloud populaires comme Azure Data Factory et AWS Glue, vous trouverez quelques modèles de base pour des scénarios simples. En d'autres termes, il existe des outils UI donnés, mais le codage représente probablement encore 80 % de chaque projet ETL. Les langages de programmation ETL les plus populaires sont Python, Scala, et SQL.

Prochains Tech Talks sur l'ETL

Dans les parties 2 et 3, nous décrirons deux cas dans lesquels nous avons utilisé Azure Data Factory et AWS Glue pour aider les clients à établir leurs flux ETL et entrepôts de données.

Tech Talk: Est-il possible de faire de l'ETL dans le cloud sans coder ? (Partie 1)

Tech Talk: Est-il possible de faire de l'ETL dans le cloud sans coder ? (Partie 1)

Prêt à atteindre vos objectifs avec les données ?

Commencez

Prêt à atteindre vos objectifs avec les données ?

Commencez

Prêt à atteindre vos objectifs avec les données ?

Commencez

Prêt à atteindre vos objectifs avec les données ?

Commencez

Newsletter

Newsletter