Power BI - Modèle en étoiles dans la pratique Tutoriels

Découvrez comment appliquer le modèle en étoiles dans la pratique dans Microsoft 365 pour une modélisation de données efficace.
Dans cette vidéo, vous apprendrez à créer un modèle en étoiles dans Power BI en utilisant des tables de faits et des dimensions pour une analyse plus approfondie.
Obtenez des conseils pratiques pour structurer votre modèle de données et éviter les erreurs courantes liées à la pratique du modèle en étoiles.
Cette vidéo s'adresse à tous les utilisateurs de Microsoft 365, du niveau débutant à intermédiaire.
Retenez cette technique pour une modélisation de données efficace et une analyse plus approfondie.

  • 5:16
  • 3231 vues

Objectifs :

L'objectif de cette vidéo est de démontrer comment transformer des données en créant une table équivalente à celle d'un festival, en se concentrant sur la gestion des colonnes, la déduplication des données et l'établissement de relations entre les tables pour une meilleure visualisation des informations.


Chapitres :

  1. Introduction à la transformation des données
    Dans cette section, nous allons explorer le processus de transformation des données en créant une table qui correspond à notre table de festival. Cela implique de sélectionner les colonnes pertinentes et de gérer les doublons pour optimiser nos données.
  2. Création de la table équivalente
    Nous commençons par créer une référence pour notre table de géolocalisation. Pour cela, nous allons conserver uniquement les colonnes qui nous intéressent, telles que le code postal, le département, la commune principale, le nom du département, la région, ainsi que la latitude et la longitude.
  3. Gestion des doublons
    Une fois les colonnes sélectionnées, nous devons procéder à la déduplication des données. Cela se fait en sélectionnant le code postal et en demandant la suppression des doublons. Il est essentiel de remplacer la colonne de clé pour pouvoir travailler efficacement par la suite.
  4. Optimisation des colonnes
    Bien que nous devrions normalement supprimer les colonnes de région, de départements et de communes pour gagner de l'espace, nous allons conserver ces informations pour les besoins de l'exercice. Cela nous permet de garder toutes les informations nécessaires pour la suite.
  5. Établissement des relations entre les tables
    Nous allons maintenant établir une relation entre nos deux tables en utilisant les codes postaux. Il est important de vérifier les valeurs vides qui pourraient créer des doublons. Nous allons donc retourner dans Power Query pour supprimer ces éléments vides avant de recharger les données et de refaire la liaison.
  6. Ajout de données supplémentaires
    Après avoir établi les relations, nous pouvons ajouter un tableau avec les participants de 2018. Cela nous permettra de visualiser les départements et d'éviter les duplications de noms de communes.
  7. Conseils pour la gestion des données
    Bien que la création de modèles en étoile ne soit pas obligatoire pour de petits volumes de données, elle peut être bénéfique pour des volumes plus importants. Cela optimise l'espace de stockage et améliore la gestion des données. Il est également crucial de contrôler les relations et de prêter attention au sens du filtre lors de la sélection des valeurs.
  8. Conclusion et prochaines étapes
    Nous avons terminé la gestion du modèle de données. Il est important de retenir les différents types de cardinalité et de vérifier les relations. Nous allons maintenant passer à la partie visualisation des données, où nous appliquerons les concepts appris.

FAQ :

Qu'est-ce que la déduplication des données?

La déduplication des données est le processus d'élimination des doublons dans un ensemble de données pour garantir que chaque enregistrement est unique. Cela permet d'améliorer la qualité des données et d'optimiser l'espace de stockage.

Comment créer une table de référence dans Power Query?

Pour créer une table de référence dans Power Query, vous devez d'abord sélectionner les colonnes pertinentes, puis utiliser l'option de création de référence pour établir une nouvelle table qui contient uniquement les données nécessaires.

Pourquoi est-il important de gérer les relations entre les tables?

Gérer les relations entre les tables est crucial pour assurer l'intégrité des données et permettre des analyses précises. Cela aide à éviter les doublons et à garantir que les données sont correctement liées.

Qu'est-ce que la géolocalisation et comment est-elle utilisée?

La géolocalisation est la technique qui permet de déterminer la position géographique d'un objet ou d'une personne. Elle est utilisée dans divers domaines, comme le marketing, la logistique et les services basés sur la localisation.

Quels sont les avantages d'utiliser un modèle en étoile?

Un modèle en étoile facilite l'analyse des données en organisant les informations de manière structurée. Il permet également d'améliorer les performances des requêtes et de simplifier la compréhension des relations entre les données.


Quelques cas d'usages :

Analyse des données de festival

Utiliser les techniques de déduplication et de géolocalisation pour analyser les données des participants à un festival, permettant d'optimiser la logistique et d'améliorer l'expérience des visiteurs.

Optimisation des campagnes marketing

Appliquer la géolocalisation pour cibler des campagnes marketing en fonction de la localisation des clients, augmentant ainsi l'efficacité des promotions et des événements.

Gestion des données clients

Utiliser Power Query pour nettoyer et organiser les données clients, en supprimant les doublons et en établissant des relations entre différentes tables pour une meilleure analyse des comportements d'achat.

Visualisation des données

Créer des visualisations à partir de données géolocalisées pour représenter graphiquement la répartition des participants à un événement, facilitant ainsi la prise de décision pour les futurs événements.

Amélioration de la qualité des données

Mettre en place des processus de déduplication et de gestion des relations pour garantir la qualité des données dans une base de données d'entreprise, ce qui est essentiel pour des analyses précises et des rapports fiables.


Glossaire :

Données

Informations collectées et organisées pour être analysées ou utilisées dans un contexte spécifique.

Table

Structure de données qui organise les informations en lignes et colonnes, facilitant l'accès et l'analyse.

Référence

Un point de référence utilisé pour établir des relations entre différentes données ou tables.

Géolocalisation

Technique permettant de déterminer la position géographique d'un objet ou d'une personne à l'aide de données GPS ou d'autres méthodes.

Colonnes

Sections verticales d'une table qui contiennent des données d'un même type, comme le code postal ou le nom du département.

Déduplication

Processus d'élimination des doublons dans un ensemble de données pour garantir l'unicité des enregistrements.

Clé

Un identifiant unique utilisé pour relier des données entre différentes tables.

Cardinalité

Description du nombre de relations entre les entités dans une base de données, par exemple, une relation un-à-plusieurs.

Power Query

Outil de Microsoft utilisé pour l'importation, la transformation et la manipulation de données dans Excel et Power BI.

Modèle en étoile

Architecture de base de données qui organise les données en une table centrale (fait) et plusieurs tables de dimensions, facilitant l'analyse.

00:00:00
Donc on va aller ici,
00:00:02
on va aller sur transformer les données.
00:00:06
Et on va aller s'occuper de créer.
00:00:09
Une table équivalente ici
00:00:11
à notre table de festival.
00:00:13
Donc pour ça on va dire qu'on va les créer.
00:00:16
Euh, une référence ici, voilà.
00:00:22
Et en créant du coup cette référence,
00:00:24
on va aller l'appeler donc en formation.
00:00:30
Géolocalisation.
00:00:33
Voilà, et on va. Supprimer,
00:00:38
donc on va conserver uniquement
00:00:40
les colonnes qui nous intéressent.
00:00:43
On va ici choisir les colonnes.
00:00:47
Donc on va tout désélectionner
00:00:49
et on va garder le code postal.
00:00:58
On va garder le département potentiellement.
00:01:01
La commune principale,
00:01:03
le nom du département et la région voilà,
00:01:07
et on peut même mettre, je pense,
00:01:09
la latitude et la longitude,
00:01:10
la longitude pardon donc on va sélectionner
00:01:13
7 amples semble là et maintenant je
00:01:15
n'ai plus qu'à faire ma déduplication.
00:01:18
Donc là, ici, je vais sélectionner mon
00:01:20
code postal et je vais lui demander
00:01:23
de supprimer les doublons ici, hop.
00:01:27
On va aller là. Ici et on va aller.
00:01:31
Sur la. Suppression des doublons.
00:01:36
Et donc on va ici remplacer cette colonne
00:01:38
là qui est du coup notre clé tout au début.
00:01:44
Pour pouvoir travailler par la suite
00:01:47
et après alors ce qu'il faudrait
00:01:49
faire logiquement, mais en fait,
00:01:50
on ne va pas le faire parce qu'on va
00:01:51
en avoir besoin un peu plus tard
00:01:52
dans le cours donc je triche un peu,
00:01:53
c'était vraiment plus pour l'exercice.
00:01:56
Normalement ici dans festival on devrait
00:01:58
aller supprimer l'ensemble des colonnes de
00:02:00
région de nos départements et de communes.
00:02:03
Justement pour faire ce gain de
00:02:05
place sur les différentes,
00:02:08
sur les différentes communes,
00:02:10
sur les différents codes postaux,
00:02:12
et cetera et donc.
00:02:14
Donc ici on va juste le faire
00:02:16
vraiment pour l'exercice,
00:02:16
donc on voit que là j'ai toutes
00:02:18
les informations nécessaires,
00:02:19
je vais aller appliquer cet élément-là.
00:02:27
Donc il va aller m'apporter mes
00:02:29
informations que j'ai localisation.
00:02:31
Je vais pouvoir retourner ici
00:02:33
et voilà donc mes informations
00:02:36
de géolocalisation et on va
00:02:38
pouvoir faire le lien entre.
00:02:40
Mais de tableaux donc, à savoir ici.
00:02:43
Entre mes 2 codes postaux ?
00:02:46
Donc on va remonter un peu.
00:02:48
Voilà, code postal et code postal.
00:02:50
On va faire le lien.
00:02:55
Donc là on va créer ma relation ici.
00:02:58
Alors là il m'indique Ah oui,
00:03:01
relation plusieurs à plusieurs. Pourquoi ?
00:03:03
Parce que je pense qu'il y avait des
00:03:04
valeurs vides que je n'ai pas supprimées,
00:03:06
donc on va retourner dans Power Query.
00:03:08
Et voilà donc en fait les valeurs,
00:03:10
vite du coup,
00:03:11
vont fatalement créer des doublons,
00:03:12
donc en plus de ça,
00:03:13
on va aller dire que je souhaite.
00:03:15
Supprimer les éléments vides
00:03:18
voilà et on va aller recharger ça.
00:03:30
Je vais retourner ici et je
00:03:32
vais refaire la liaison.
00:03:36
Et voilà donc du coup la
00:03:38
Relation à plusieurs.
00:03:39
Et maintenant j'ai la capacité d'aller
00:03:41
aller chercher donc si je reviens ici
00:03:43
dans mes petits tableaux, je pourrais
00:03:45
très bien aller rajouter un tableau.
00:03:47
Avec mes participants. 2018.
00:03:52
Alors sous la forme d'un tableau promis.
00:03:55
Après, on fait des belles visualisations
00:03:57
et après aller chercher par
00:03:59
exemple les départements ici pour
00:04:01
avoir ma ventilation entre les 2.
00:04:04
Et donc de ne plus avoir
00:04:06
de duplication entre.
00:04:07
Les différents noms de communes qui
00:04:10
auraient pu se répéter tout simplement.
00:04:12
Donc voilà une petite astuce ?
00:04:14
Ça n'est absolument pas obligatoire.
00:04:16
Surtout quand vous avez des
00:04:17
faibles volumes de données,
00:04:18
mais par contre quand vous avez
00:04:19
des grands volumes de données,
00:04:20
ça peut potentiellement être intéressant
00:04:22
d'aller créer ces fameux modèles en étoile
00:04:25
pour optimiser l'espace de stockage.
00:04:27
Honnêtement,
00:04:27
nous on n’en avait pas tellement besoin,
00:04:28
c'était juste pour toujours pareil.
00:04:30
Dans l'objectif d'être exhaustif
00:04:32
tout au long du cours,
00:04:34
on en a fini sur tout ce qui était
00:04:36
la gestion du modèle de données,
00:04:38
donc retenez bien les différents
00:04:40
types de cardinalité.
00:04:41
Contrôle les relations.
00:04:42
N'oubliez pas que par défaut pour arya
00:04:44
est capable aussi de détecter les.
00:04:45
Les relations, notamment via
00:04:48
gérer les modèles.
00:04:50
Et faites bien.
00:04:51
Attention aussi au sens du filtre
00:04:53
qui peut avoir son importance,
00:04:54
notamment quand on va les sélectionner
00:04:57
des valeurs, là ici sur un tableau.
00:04:59
Si je me rends ici,
00:05:00
voilà les différents qu'on peut avoir.
00:05:02
Là, vous voyez, ici,
00:05:03
je n'ai pas appliqué le filtre dans
00:05:05
les 2 sens et donc ça sent, ressent,
00:05:07
directement et en dehors de ça.
00:05:10
Eh bien, c'est à peu près tout.
00:05:13
Et on va enchaîner du coup
00:05:14
sur la partie visualisation.

Il n’existe aucun élément correspondant à votre recherche dans cette vidéo...
Effectuez une autre recherche ou retournez au contenu !

 

Mandarine AI: CE QUI POURRAIT VOUS INTÉRESSER

Rappel

Afficher