DataStage

Créé il y a plus de 25 ans, DataStage est un outil d’intégration de données, dédié aux travaux d’extraction, de transformation et de chargement de données. Il fait partie de la classe d’outils des ETL (Extract, Transform, Load).

Son utilisation prend tout son sens dans tous les projets de traitement de données : 

Big Data    –    Décisionnels    –    Règlementaires (RGPD, …)    –    Métiers (vue 360, …)    –    Etc.

Positionnement

C’est un composant majeur au cœur de la plateforme IBM Information Server qui propose des services autour de la donnée : gouvernance, gestion de la qualité, cartographie des données …

Information Server

Il est au centre de tout projet de manipulation de données :

Processus ETL

Fonctionnalités

DataStage permet la construction de flux de données grâce à une modélisation graphique et intuitive offrant plus d’une centaine de composants spécialisés pour :

  • L’accès aux différents systèmes de données :

    • SGBD  :  Hive, Oracle, DB2, Teradata, Netezza, Exadata, SQLServer, …
    • Fichiers :  texte, xml, mainframe, …
    • ERP :  SAP, Oracle application, Microsoft Dynamics, …
  • La manipulation des données (transformation, agrégats, tris, jointures, pivot, …)

DataStage permet aux développeurs de faire abstraction de la technique par une représentation graphique normalisée.

Flux de données

Flux de données

Séquencement des flux

Séquencement de flux

Pilotage/Suivi des flux

Suivi des flux

Performance

DataStage inclut un moteur de parallélisation garantissant une montée en charge linéaire et des performances élevées quelque soit le volume de données, y compris dans les projets Big Data.

Un flux de données (Job) est conçu de manière linéaire, c’est le moteur qui va dynamiquement, via un fichier de configuration, déployer les processus en parallèle.

Parallélisation

C’est également le moteur, une fois paramétré, qui va gérer le partitionnement et la cohérence des données durant le processus massivement parallèle :

Massivement parallèle

Un flux DataStage s’adapte automatiquement à une infrastructure SMP, MPP, Grid et cluster Hadoop (Big Data) :

Infrastructures

Composition

Les principaux modules à disposition sont :

  • DataStage Designer :  modélisation graphique des flux de données
  • DataStage Director :  suivi temps-réel et supervision des flux opérationnels (journaux)
  • DataStage Administrator :  configuration et paramétrage