Power BI - Les fonctions statistiques Tutoriels

Découvrez comment utiliser les fonctions statistiques avancées de Power BI pour analyser vos données, dans le contexte de la solution Microsoft 365. Cette vidéo vous montrera comment calculer des moyennes, des médianes, des minimums et des maximums, et comment appliquer des filtres pour identifier le nombre de valeurs finales dans vos données.

  • 11:06
  • 2917 vues

Objectifs :

L'objectif de cette vidéo est d'explorer les fonctions statistiques disponibles dans un logiciel d'analyse de données, en mettant l'accent sur leur simplicité d'utilisation pour effectuer des calculs tels que la moyenne, le nombre de valeurs, les valeurs manquantes, et les extrêmes (minimum et maximum) dans un ensemble de données concernant des festivals.


Chapitres :

  1. Introduction aux Fonctions Statistiques
    Dans cette section, nous abordons les fonctions statistiques qui permettent de calculer des mesures essentielles telles que les minimums, maximums, moyennes et médianes. Ces fonctions sont simples à configurer et à utiliser, ce qui les rend accessibles même pour les utilisateurs novices.
  2. Calcul de la Moyenne
    Nous commençons par la fonction 'average', qui permet de calculer la moyenne des participants à un festival. Par exemple, en 2018, la moyenne des participants était de 50 000 par festival. Pour effectuer ce calcul, nous utilisons la formule suivante : - Moyenne = average(Des participations) Cette fonction est essentielle pour obtenir une vue d'ensemble des données.
  3. Utilisation de la Fonction CountX
    La fonction 'countX' est utilisée pour compter le nombre de valeurs présentes dans une colonne d'un tableau, avec la possibilité d'appliquer des filtres. Par exemple, pour déterminer le nombre de festivals ayant plus de 10 000 visiteurs en 2018, nous utilisons la formule : - Nombre de festivals à plus de 10 000 visiteurs = countX(Festivals, [Condition de filtre]) Cette fonction nous a permis de constater qu'il y avait 2 858 festivals avec au moins 10 000 visiteurs.
  4. Comptabilisation des Valeurs Manquantes
    Nous avons également exploré la fonction 'countBlank', qui permet de compter le nombre de valeurs manquantes dans une colonne. Par exemple, pour les horaires de début des festivals, nous avons découvert qu'il manquait presque la moitié des valeurs. Cela souligne l'importance de vérifier la qualité des données avant de procéder à des analyses.
  5. Calcul des Valeurs Distinctes
    La fonction 'distinctCount' nous permet de connaître le nombre total de valeurs uniques dans une colonne. En analysant les données, nous avons trouvé qu'il y avait 1 577 communes ayant organisé des festivals, ce qui indique qu'en moyenne, chaque commune organise environ deux festivals.
  6. Extraction des Valeurs Extrêmes
    Nous avons également utilisé les fonctions 'max' et 'min' pour extraire les valeurs extrêmes d'une colonne. Par exemple, pour le nombre maximum de participants à un festival, nous avons utilisé la formule : - Maximum des participants = max(Festival 2018 Participants) Cela nous a permis d'identifier le festival avec le plus grand nombre de participants.
  7. Calcul de la Médiane
    Enfin, nous avons exploré la fonction 'median', qui permet de calculer la médiane des participants. En 2018, la médiane était de 45, ce qui indique une concentration de festivals avec un nombre de participants relativement faible. Cela suggère que la majorité des festivals attirent moins de participants que la moyenne.
  8. Conclusion
    En résumé, les fonctions statistiques présentées dans cette vidéo sont des outils puissants pour analyser les données des festivals. Elles permettent de calculer des mesures clés telles que la moyenne, le nombre de valeurs, les valeurs manquantes, et les extrêmes. Il est essentiel de bien organiser ces fonctions dans un dossier dédié pour une utilisation future. Nous vous encourageons à les appliquer dans vos propres analyses de données.

FAQ :

Qu'est-ce qu'une fonction statistique?

Une fonction statistique est un outil qui permet d'effectuer des calculs sur des données pour en extraire des informations significatives, comme la moyenne, la médiane, ou le nombre de valeurs manquantes.

Comment calculer la moyenne dans un tableau?

Pour calculer la moyenne, vous devez additionner toutes les valeurs d'une colonne et diviser le total par le nombre de valeurs. Par exemple, pour calculer la moyenne des participants à un festival, additionnez le nombre de participants de chaque festival et divisez par le nombre total de festivals.

Quelle est la différence entre la moyenne et la médiane?

La moyenne est la somme de toutes les valeurs divisée par le nombre de valeurs, tandis que la médiane est la valeur qui sépare un ensemble de données en deux parties égales. La médiane est moins influencée par les valeurs extrêmes que la moyenne.

Comment utiliser la fonction Count Blank?

La fonction Count Blank est utilisée pour compter le nombre de valeurs manquantes dans une colonne. Cela vous aide à évaluer la qualité des données et à identifier les colonnes nécessitant une attention particulière.

Qu'est-ce que la fonction Distinct Count?

La fonction Distinct Count permet de compter le nombre de valeurs uniques dans une colonne, ce qui est utile pour comprendre la diversité des données, par exemple, le nombre de communes organisant des festivals.


Quelques cas d'usages :

Analyse des participants à un festival

Utilisez les fonctions statistiques pour analyser le nombre de participants à différents festivals. Par exemple, calculez la moyenne des participants pour évaluer la popularité des festivals au fil des ans.

Évaluation de la qualité des données

Appliquez la fonction Count Blank pour identifier les colonnes avec des valeurs manquantes dans votre tableau de données. Cela vous aidera à déterminer où des efforts supplémentaires sont nécessaires pour collecter des données complètes.

Comparaison des festivals par commune

Utilisez la fonction Distinct Count pour déterminer combien de communes organisent des festivals. Cela peut aider à identifier les zones géographiques les plus actives en matière d'événements.

Identification des festivals les plus populaires

Utilisez la fonction Max pour trouver le festival avec le plus grand nombre de participants. Cela peut être utile pour des études de marché ou pour planifier des événements futurs.

Analyse des tendances de participation

Calculez la médiane des participants pour comprendre la répartition des tailles de festivals. Cela peut révéler des tendances intéressantes sur la taille des événements au fil du temps.


Glossaire :

Fonctions statistiques

Les fonctions statistiques sont des outils utilisés pour effectuer des calculs sur des ensembles de données, permettant d'analyser et d'interpréter des informations quantitatives.

Moyenne

La moyenne est une mesure de tendance centrale qui est calculée en additionnant toutes les valeurs d'un ensemble de données et en divisant le total par le nombre de valeurs. Par exemple, la moyenne des participants à un festival peut être calculée en additionnant le nombre de participants de chaque festival et en divisant par le nombre total de festivals.

Quant X

La fonction Quant X permet de compter le nombre de valeurs présentes dans un tableau ou une colonne, en tenant compte des filtres appliqués. Elle est similaire à la fonction Somme X.

Count Blank

La fonction Count Blank est utilisée pour compter le nombre de valeurs manquantes dans une colonne d'un tableau. Cela permet d'identifier les données incomplètes.

Distinct Count

La fonction Distinct Count permet de compter le nombre total de valeurs uniques dans une colonne, excluant les doublons. Cela est utile pour déterminer la diversité des données.

Max

La fonction Max retourne la valeur maximale d'une colonne de données. Par exemple, elle peut être utilisée pour trouver le nombre maximum de participants à un festival.

Min

La fonction Min retourne la valeur minimale d'une colonne de données. Elle est utilisée pour identifier le nombre minimum de participants à un festival.

Médiane

La médiane est une mesure de tendance centrale qui divise un ensemble de données en deux parties égales. Elle est particulièrement utile lorsque les données contiennent des valeurs extrêmes.

00:00:00
On en arrivé à notre avant-dernière
00:00:02
catégorie de fonctions d'axes qui vont
00:00:05
être toutes les fonctions statistiques,
00:00:07
donc on en a eu un premier aperçu
00:00:08
avec les fonctions de mathématiques
00:00:10
qui ne sont pas si éloignées,
00:00:11
sauf qu'ici ce qu'on va chercher à faire,
00:00:13
c'est aller compter de repérer les minimums,
00:00:15
les maximums, même si on a déjà fait
00:00:17
de pouvoir calculer des moyennes,
00:00:19
de pouvoir calculer des médias, et cetera.
00:00:20
Et ça, on va voir que finalement,
00:00:22
les fonctions statistiques,
00:00:24
elles sont extrêmement simples
00:00:26
à configurer. Ici
00:00:31
clic. Donc notre onglet de mesure
00:00:34
statistique et on va commencer par
00:00:36
la fonction qui nous permet de
00:00:38
calculer tout simplement une moyenne.
00:00:39
Je l'avais évoqué dans une
00:00:43
slide dans la présentation dans
00:00:45
l'introduction que j'avais pu vous
00:00:47
faire et donc c'est la fonction average
00:00:49
qui va nous permettre de faire ce
00:00:51
calcul là et donc on va aller faire.
00:00:54
Via une nouvelle mesure,
00:00:56
la moyenne des participants au Festival.
00:00:59
Donc ici.
00:01:02
On va le faire.
00:01:04
La moyenne des participants ?
00:01:07
Qui va être égal à average ?
00:01:14
Des participations.
00:01:18
Ici et on va pouvoir afficher la valeur.
00:01:24
Au sein d'une mesure.
00:01:26
Voilà donc on a en moyenne 50000
00:01:29
participants par Festival sur l'année 2018.
00:01:33
Donc premier élément
00:01:34
qu'on a pu voir ensuite,
00:01:36
on va continuer avec une autre
00:01:38
fonction qu'on a pu évoquer
00:01:39
mais pas vraiment détaillée,
00:01:41
c'est la fonction quant X qui va me
00:01:44
permettre de calculer le nombre de
00:01:46
de valeurs présentes dans un tableau
00:01:49
et dans notamment une colonne d'un
00:01:52
tableau avec la possibilité de faire
00:01:54
des filtres donc elle fonctionne
00:01:56
un petit peu comme somme somme X.
00:01:58
Et on va aller du coup.
00:02:00
Dans nos modélisations et créer une
00:02:03
métrique qui est capable de nous dire
00:02:06
le nombre de festivals dont le nombre
00:02:09
de participants est supérieur à 10000.
00:02:11
Qu'on l'avait déjà fait pour ce mix,
00:02:13
on va juste du coup la
00:02:15
refaire ici pour Kant X.
00:02:17
Donc nombre de festivals.
00:02:21
À plus de 10000 visiteurs.
00:02:28
On appelle notre fonction compte
00:02:30
X qui est ici. On va chercher.
00:02:34
À tout de suite filtrer pour indiquer
00:02:37
ensuite notre tableau, les festivals,
00:02:38
je rentre un peu dans le détail.
00:02:40
Je pense que vous commencez
00:02:41
à bien connaître le process.
00:02:42
On va aller appliquer ici notre filtre.
00:02:50
Des festivals 2018 supérieurs à 10000.
00:02:57
On ferme la parenthèse et on va les rajouter.
00:03:01
Le calcul qu'on souhaite faire donc,
00:03:02
à savoir le nombre de valeurs
00:03:05
finales qu'on souhaite comptabiliser,
00:03:06
donc on va les rechercher notre colonne.
00:03:12
2018 ici.
00:03:15
Et donc là oups, je me suis trompé.
00:03:18
Voilà avec une parenthèse, ça marchera mieux.
00:03:24
Et donc là il va pouvoir nous comptabiliser.
00:03:26
Ce nombre, on va aller.
00:03:30
N'affichant carte, c'est donc on voit
00:03:32
que 2858 festivals ont eu au moins
00:03:36
10000 visiteurs sur l'année 2018.
00:03:41
On va continuer notre exploration avec le.
00:03:45
La comptabilisation du nombre de
00:03:47
valeurs manquantes au sein d'un tableau,
00:03:50
donc encore une fois ici,
00:03:50
on l'avait déjà un petit peu vu auparavant,
00:03:53
avec par exemple Hall blank qu'on
00:03:55
avait vu pour afficher une table et
00:03:57
de compter les valeurs manquantes
00:03:59
et donc ici on va aller compter.
00:04:01
Le nombre total de valeurs
00:04:02
manquantes dans une colonne.
00:04:05
On va les créer.
00:04:07
Cette nouvelle mesure donc la
00:04:08
fonction s'appelle quant blank,
00:04:10
et on va retourner la valeur qui va nous
00:04:13
indiquer le nombre de festivals dont la,
00:04:17
les horaires d'heure de début manquent.
00:04:20
Parce qu'il y en a beaucoup au final.
00:04:21
On a vu dans le tableau.
00:04:22
Il manque énormément de valeur.
00:04:24
Donc on va faire nombre.
00:04:26
De peur mon compte ?
00:04:31
Sur les horaires de festival.
00:04:37
Qui va être égal à compte blanc donc du
00:04:40
coup elle est ici donc compte le nombre
00:04:42
de valeurs vides dans une colonne.
00:04:47
On va y placer la colonne qui
00:04:48
nous intéresse, donc à savoir,
00:04:50
horaire, festival heure de début.
00:04:54
On referme tout ça et on va
00:04:55
aller constater la valeur.
00:05:03
Donc, au final, il nous manque quasi même
00:05:05
plus non quasiment la moitié,
00:05:07
des festivals qui n'ont pas
00:05:11
du coup-là l'heure de début de festival.
00:05:13
Donc après ça veut dire aussi ici qu'il
00:05:15
faudra faire attention dans l'usage
00:05:17
de cette colonne puisqu’il manque
00:05:18
plus de la moitié des = valeurs.
00:05:20
Donc ce qui est un peu moins pardon
00:05:22
de la moitié des valeurs,
00:05:23
ce qui est extrêmement important.
00:05:24
Évidemment, vous vous en doutez.
00:05:27
Dans cette veine-là,
00:05:28
au niveau des valeurs de Count,
00:05:30
on va également avoir la valeur distincte,
00:05:33
compte qui va nous permettre d'avoir le
00:05:35
nombre total de valeurs dans une colonne,
00:05:37
mais le nombre total de valeurs
00:05:38
des dupliquées ?
00:05:40
Et pour ça,
00:05:40
on va essayer de savoir combien
00:05:42
au final de nombre de communes
00:05:44
ont organisé un festival dans
00:05:46
l'extracteur qu'on peut avoir ici.
00:05:48
Donc on va aller ici.
00:05:49
Dans les modélisations,
00:05:50
créer une nouvelle mesure.
00:05:52
Vous connaissez la chanson ?
00:05:55
Et on va l'accepter donc
00:05:56
ça sera le nombre de.
00:05:58
Commune organisant des festivals.
00:06:11
Et qui va être égal ? À distinct.
00:06:17
Quand donc elle est ici.
00:06:19
Donc qui, comme l'indique contre le nombre
00:06:22
de valeurs distinctes dans une colonne.
00:06:25
On va la sélectionner et là encore une fois,
00:06:26
comme je vous disais,
00:06:27
ce sont des fonctions très simples
00:06:28
à utiliser, ce que souvent elles
00:06:29
n'attendent qu'une seule valeur.
00:06:30
On va aller lui placer.
00:06:33
La commune principale ?
00:06:38
Voilà. Et on va voir ce que ça donne.
00:06:53
Et donc on voit,
00:06:54
on voit qu'on a 1577 communes,
00:06:57
sachant qu'on avait un peu plus
00:06:59
de 3000 festivals dans notre base,
00:07:02
ça veut dire que, en moyenne,
00:07:03
chaque commune organise environ
00:07:05
2 festivals donc évidemment,
00:07:07
il y en a qui en ont beaucoup plus,
00:07:09
comme Bordeaux,
00:07:09
Marseille où Paris où il y aura des
00:07:11
dizaines de de festivals et d'autres
00:07:13
où il y en a évidemment qu'une seule.
00:07:15
Mais du coup en moyenne,
00:07:16
ça c'est intéressant de voir
00:07:17
qu'on a en moyenne 2 festivals
00:07:19
organisés pour chacune des
00:07:21
communes qui sont présentes dans.
00:07:23
Le fichier.
00:07:25
En autre jeu de de fonction que vous
00:07:27
qu'on a déjà vu donc je remets
00:07:30
juste l'accent sur une dernière fois,
00:07:32
ça va être les fonctions de
00:07:34
minimum et de maximum qui vont
00:07:36
permettre d'aller extraire les
00:07:38
extrêmes d'une colonne de données.
00:07:41
Donc on va aller,
00:07:41
par exemple,
00:07:41
extraire le nombre de participants
00:07:43
maximum qu'il y a eu sur un festival.
00:07:50
Donc on va aller ici.
00:07:55
Maximum.
00:07:59
2.
00:08:04
Participants à. Festival.
00:08:10
Qui sera égal à ? Max.
00:08:12
De la colonne qu'on souhaite tester,
00:08:15
donc ça sera festival 2018.
00:08:20
Participants, 2018.
00:08:24
Voilà.
00:08:30
On va afficher la valeur.
00:08:35
Et donc voilà le nombre de membres
00:08:38
de participants maximums qui appuient
00:08:39
avoir un festival et sachant que
00:08:42
évidemment on aurait pu tout à fait faire
00:08:44
l'inverse en mettant ici minimum voilà,
00:08:46
et de faire exactement le même calcul.
00:08:48
Donc on ne va pas faire 2 M pour ça,
00:08:50
je pense que vous avez largement
00:08:51
compris le principe et la
00:08:53
dernière que je voulais montrer.
00:08:54
Donc qui va exactement avoir la même
00:08:56
logique que la fonction average ?
00:08:58
C'est la fonction qui va permettre de
00:09:00
calculer la médiane qui s'appelle également
00:09:03
médiane et donc qui va retourner là.
00:09:05
Alors, qui va couper en 2 ?
00:09:07
Notre groupe de population ?
00:09:10
Et donc on va aller ici.
00:09:12
Créer une dernière mesure
00:09:14
pour cette catégorie.
00:09:18
L'appeler, participant médiane.
00:09:30
Et on va appeler.
00:09:32
La fonction médiane ici,
00:09:33
donc on a aussi la médiane X
00:09:35
un qui va permettre notamment
00:09:36
d'aller sélectionner d'abord le
00:09:37
tableau et donc potentiellement
00:09:39
d'appliquer des filtres puis ensuite
00:09:40
d'aller calculer la médiane.
00:09:41
Donc les X à chaque fois ça va être ça,
00:09:43
ça va être la capacité à les
00:09:45
filtrer sur une valeur et on va
00:09:47
aller chercher notre colonne.
00:09:52
Qu'on connaît tous très bien.
00:09:56
Des participants en 2018. On concerne ça.
00:10:07
Et voilà donc la médiane.
00:10:09
Alors de souvenirs, la moyenne était
00:10:10
Ah bah elle est là tout simplement.
00:10:13
Donc ici, on a une moyenne à 51 médiane à 45,
00:10:17
ce qui veut dire qu'on a potentiellement
00:10:20
une certaine concentration des festivals
00:10:22
sur des valeurs assez petites puisque du
00:10:25
coup vu que la médiane est plus forte,
00:10:27
ça veut dire qu'on a un centre de
00:10:29
gravité qui est un peu avant la moyenne
00:10:30
et donc il y a forcément plus de
00:10:32
monde du côté des petits festivals.
00:10:34
Ce qui paraît évidemment plutôt logique.
00:10:36
Voilà pour les fonctions statistiques.
00:10:38
Comme d'habitude,
00:10:39
je vous invite à les ranger
00:10:41
correctement dans un dossier.
00:10:46
Que nous allons appeler fonction statistique.
00:10:53
Et que nous allons ranger dans notre
00:10:55
très chère table des festivals.
00:11:01
Et on se retrouve tout de suite
00:11:02
pour la dernière catégorie de
00:11:04
fonctions d'axe qu'on verra ensemble.

Il n’existe aucun élément correspondant à votre recherche dans cette vidéo...
Effectuez une autre recherche ou retournez au contenu !

 

Mandarine AI: CE QUI POURRAIT VOUS INTÉRESSER

Rappel

Afficher