Amélioration de la qualité et enrichissement des données produits pour une marketplace, unifiant les informations dans une base unique avec des processus d’automatisation avancés.
Défis et objectifs
- Améliorer la qualité des données produits en créant une base de données unifiée
- Automatiser et enrichir le processus de gestion de la qualité des données avec des modèles NLP
Solutions mises en œuvre
- Ateliers et collaboration : animation d’ateliers avec les métiers pour mieux comprendre les besoins en qualité des données
- Technologies et outils utilisés : Python, Apache Beam, Docker, GCP (BigQuery, Cloud Storage, DataFlow, Compute Engine, Cloud Composer), GitLab
- Processus de développement : création d’ETL Python et Apache Beam sur GCP, enrichissement avec des modèles NLP, migration de scripts Bash vers Python avec Airflow, création de packages Python pour l’intégration ETL (FTP, BigQuery, GCS, DB2, SQLServer), conteneurisation des ETL avec Docker, intégration continue avec GitLab
Résultats et impact
- Qualité de données produits améliorée et automatisée
- Réduction des erreurs dans la gestion des données
Technologies
Python, Apache Beam, Docker, GCP, GitLab, Airflow