Power BI - Extraire les tableaux d'une page web Tutoriels

Découvrez comment extraire les tableaux d'une page web avec Power Query dans Microsoft 365 grâce à cette vidéo pratique.
Cette fonctionnalité permet de récupérer facilement des données structurées à partir de pages web contenant des tableaux.
Obtenez des conseils pratiques pour sélectionner les tableaux souhaités et les importer directement dans Power Query pour une utilisation ultérieure.
Cette vidéo est destinée aux utilisateurs débutants souhaitant se familiariser avec l'extraction de tableaux dans Microsoft 365. Suivez cette vidéo pour en savoir plus sur cette fonctionnalité pratique dans Power Query.

  • 4:04
  • 3605 vues

Objectifs :

Comprendre comment Power Query peut extraire des données à partir de pages web en utilisant le HTML, et apprendre à importer des tableaux depuis Wikipedia.


Chapitres :

  1. Introduction à Power Query et au HTML
    Power Query est un outil puissant qui permet de lire le HTML d'une page web. Pour ceux qui ne sont pas familiers avec le fonctionnement d'un site web, il est important de comprendre que les langages côté client, tels que HTML, CSS et JavaScript, s'exécutent dans le navigateur. Le HTML, par exemple, est utilisé pour créer des tableaux et structurer les informations sur une page.
  2. Exemple pratique : Extraction de données depuis Wikipedia
    Pour illustrer l'utilisation de Power Query, nous allons ouvrir une page Wikipedia sur la répartition géographique de la population en France. En inspectant le code HTML de cette page, nous pouvons voir que les tableaux sont construits à l'aide de cellules, de lignes et de colonnes. Power Query est capable d'interpréter ces balises HTML pour extraire les tableaux présents sur la page.
  3. Processus d'importation des données
    Pour importer les données, nous allons copier l'URL de la page Wikipedia et la coller dans Power Query. Voici les étapes à suivre : 1. Ouvrir Power Query. 2. Créer une nouvelle source de données depuis le web. 3. Coller l'URL et cliquer sur OK. 4. Choisir le type d'authentification (dans ce cas, mode anonyme). Une fois connecté, Power Query affichera les données récupérées, y compris les tableaux sur l'évolution de la population par région.
  4. Sélection des tableaux pertinents
    Après avoir récupéré les données, il est possible de sélectionner les tableaux qui nous intéressent. Dans notre cas, nous allons choisir le tableau sur la répartition par région. Il est également possible de sélectionner plusieurs tableaux si nécessaire. Une fois la sélection faite, il suffit de cliquer sur OK pour importer les données dans Power Query.
  5. Avantages de l'importation directe
    L'un des grands avantages de se connecter directement à la source de données est que si le tableau sur Wikipedia est mis à jour, vous bénéficierez automatiquement de ces mises à jour dans Power Query. En revanche, si vous copiez et collez le tableau dans un fichier Excel, vous devrez le mettre à jour manuellement, ce qui peut entraîner des oublis. Il est donc préférable de garder une connexion directe à la source de données.
  6. Conclusion
    En résumé, Power Query permet d'extraire facilement des tableaux à partir de pages web, comme celles de Wikipedia. Cela offre une méthode efficace pour travailler avec des données qui peuvent changer fréquemment, tout en évitant les erreurs liées à la mise à jour manuelle des informations.

FAQ :

Qu'est-ce que Power Query et à quoi sert-il ?

Power Query est un outil de Microsoft qui permet de connecter, importer et transformer des données provenant de diverses sources, y compris des pages web. Il est particulièrement utile pour automatiser le processus d'extraction de données.

Comment Power Query peut-il lire des tableaux sur une page web ?

Power Query peut lire des tableaux sur une page web en interprétant le code HTML de la page. Il identifie les balises qui définissent les tableaux et extrait les données qu'ils contiennent.

Quels langages sont utilisés pour créer des pages web ?

Les langages couramment utilisés pour créer des pages web incluent HTML pour la structure, CSS pour le style, et JavaScript pour l'interactivité.

Pourquoi est-il préférable de se connecter directement à une source de données plutôt que de copier-coller des tableaux ?

Se connecter directement à une source de données permet de bénéficier des mises à jour automatiques des données. En revanche, un tableau copié-collé doit être mis à jour manuellement, ce qui peut entraîner des erreurs ou des oublis.

Qu'est-ce qu'une URL et comment l'utiliser avec Power Query ?

Une URL est l'adresse d'une ressource sur le web. Avec Power Query, vous pouvez utiliser une URL pour accéder à une page web et extraire des données, comme des tableaux, directement depuis cette page.


Quelques cas d'usages :

Extraction de données démographiques

Un analyste de données peut utiliser Power Query pour extraire des tableaux de données démographiques à partir de pages Wikipédia. Cela lui permet d'obtenir des informations à jour sur la population par région sans avoir à les saisir manuellement.

Mise à jour automatique de rapports

Un responsable marketing peut se connecter à des tableaux de données sur des sites web pour générer des rapports de performance. En utilisant Power Query, il peut s'assurer que les données sont toujours à jour, ce qui améliore l'efficacité de ses analyses.

Analyse comparative des données

Un consultant peut utiliser Power Query pour comparer des données provenant de plusieurs sources en ligne. En extrayant des tableaux de différentes pages web, il peut effectuer des analyses comparatives et fournir des recommandations basées sur des données récentes.

Création de tableaux de bord dynamiques

Un analyste peut créer des tableaux de bord dynamiques dans Excel en utilisant Power Query pour importer des données de plusieurs sites web. Cela lui permet de visualiser les tendances en temps réel et de prendre des décisions éclairées.


Glossaire :

Power Query

Un outil de Microsoft qui permet de connecter, importer et transformer des données provenant de diverses sources, y compris des pages web.

HTML

HyperText Markup Language, le langage standard utilisé pour créer des pages web. Il permet de structurer le contenu, y compris les tableaux.

CSS

Cascading Style Sheets, un langage utilisé pour décrire la présentation d'un document écrit en HTML. Il permet de styliser les éléments d'une page web.

JavaScript

Un langage de programmation qui permet d'ajouter des fonctionnalités interactives aux pages web. Il s'exécute côté client, c'est-à-dire dans le navigateur de l'utilisateur.

URL

Uniform Resource Locator, l'adresse d'une ressource sur le web. Elle permet d'accéder à des pages web spécifiques.

Tableau

Une structure de données qui organise les informations en lignes et colonnes, souvent utilisée pour présenter des données de manière claire.

Authentification

Le processus de vérification de l'identité d'un utilisateur avant de lui permettre d'accéder à certaines ressources ou données.

Mode anonyme

Un mode de connexion qui permet d'accéder à des ressources sans avoir besoin de s'identifier ou de se connecter avec un compte.

00:00:00
Alors on va voir que Power Quéry est
00:00:02
très fort parce qu'il est capable
00:00:04
de lire le HTML d'une page web,
00:00:06
pardon pour ceux qui ne connaissent
00:00:08
pas trop le comment fonctionne un
00:00:10
site web donc il va y avoir ce qu'on
00:00:12
appelle des langages côté client,
00:00:13
c'est à dire ce qui va s'exécuter
00:00:15
sur votre navigateur.
00:00:16
Et Parmi ces langages-là,
00:00:17
vous avez entre autres hein,
00:00:20
le HTMLCS et Le javascript,
00:00:23
et avec par exemple du HTML,
00:00:25
on va être capable de créer des tableaux.
00:00:26
Alors pour vous donner un petit exemple
00:00:29
donc ici on va ouvrir une page Wikipédia.
00:00:33
Autre est sur votre navigateur et je
00:00:35
vous invite à aller sur cette page-là.
00:00:39
Qui est là ? La population en bah tiens.
00:00:43
Je ne retrouve pas l'article,
00:00:44
il a dû changer entre-temps,
00:00:45
alors je vais le retrouver tout de suite.
00:00:49
Alors moi excusez-moi,
00:00:49
c'est juste moi qui avais mal écrit.
00:00:51
L'u RL donc cette URL là,
00:00:52
donc la répartition géographique de
00:00:54
la population en France donc ça c'est
00:00:56
une information qu'on aurait pu tout
00:00:58
à fait aller chercher directement
00:01:00
sur Wikipédia où on a du coup un
00:01:02
tableau qui est qui a été créé du
00:01:04
coup par Wikipédia avec toutes
00:01:06
les informations sur les régions.
00:01:08
Alors sans rentrer trop dans le
00:01:09
détail en fait, si on inspecte ça,
00:01:11
on va vite se rendre compte qu'en fait
00:01:13
le HTML permet de construire des tableaux,
00:01:16
donc là ici on voit qu'on a
00:01:17
des systèmes de cellules.
00:01:18
On a des systèmes d'antésite,
00:01:20
on a des systèmes de colonnes, et cetera.
00:01:22
Et donc en fait Power Query est
00:01:23
capable d'interpréter ces balises là
00:01:25
pour comprendre que c'est un tableau
00:01:27
et donc vous récupérez les tableaux
00:01:29
qui sont présents sur une page HTML.
00:01:30
Donc ça c'est très fort
00:01:31
et potentiel même si vous avez
00:01:33
plusieurs tableaux sur la page.
00:01:34
Eh bien il va vous dire quel
00:01:36
tableau vous souhaitez importer,
00:01:37
donc on va aller faire ça,
00:01:38
on va aller tout simplement prendre
00:01:40
cette URL là, retourner dans Power Query.
00:01:43
Allez créer une nouvelle source
00:01:45
de données depuis le web, hein ?
00:01:47
On est toujours là sur de la connexion web,
00:01:48
même si ce n'est pas une API.
00:01:50
On va aller coller notre RL.
00:01:53
Cliquez sur OK.
00:01:54
Il va encore une fois nous demander
00:01:56
le type d'authentification,
00:01:57
alors là on n'est pas sur un article
00:01:59
qui n'est accessible que si on est
00:02:01
connecté à un compte Wikipédia.
00:02:02
C'est un compte.
00:02:03
Enfin c'est une page totalement
00:02:04
ouverte et donc on va pouvoir dire
00:02:06
que n’y a pas besoin de se connecter
00:02:08
donc on va se mettre en mode anonyme,
00:02:10
on se connecte.
00:02:21
Ça va s'afficher et donc voici tout ce
00:02:24
qu'il a réussi à nous récupérer, donc on
00:02:28
va avoir potentiellement ce premier écran,
00:02:31
donc ça c'est ce qui va nous intéresser.
00:02:32
Par exemple, les l'évolution de la
00:02:34
population sur les régions de France.
00:02:38
Les potentiels aussi projections,
00:02:40
c'est à dire, voilà en à telle date combien
00:02:43
il y aura de population sur chacune de ces
00:02:46
régions et après aussi des tables suggérées,
00:02:49
donc là ce sont potentiellement des listes
00:02:52
ou des tableaux qu'il a réussi à récupérer.
00:02:55
À mais voilà, ce sont des choses
00:02:57
un petit peu moins pertinentes.
00:03:00
Voilà typiquement là,
00:03:01
ce sont plutôt des listes
00:03:02
qu'il a réussi à récupérer,
00:03:03
donc là on va dire qu'il est un
00:03:05
peu moins sûr de de son coup.
00:03:06
Ce sont des tableaux un peu moins
00:03:08
pertinents mais en tout cas
00:03:10
nous on va être là-dessus et.
00:03:12
Je pense qu'on va plutôt partir sur
00:03:14
la répartition par région, hein,
00:03:15
c'est plus ça qui nous intéressait et
00:03:18
on va aller du coup le sélectionner.
00:03:20
Évidemment,
00:03:20
on peut en sélectionner plusieurs ici.
00:03:23
Je vais cliquer sur OK.
00:03:27
Et donc voici notre
00:03:29
magnifique tableau Wikipédia.
00:03:30
Et ça, ce qui est super intéressant,
00:03:31
c'est que si le tableau est mis à
00:03:33
jour avec des nouvelles valeurs et
00:03:34
bien vous allez pouvoir bénéficier
00:03:35
de cette mise à jour alors que si
00:03:37
vous faites un extract de ce tableau,
00:03:39
que vous le copier-coller dans un fichier
00:03:41
Excel et bien du coup ça impliquera
00:03:42
que vous le mettiez à jour manuellement.
00:03:44
Vous oublierez certainement de le faire,
00:03:46
et cetera.
00:03:47
Donc c'est plutôt intéressant de
00:03:48
se connecter directement à la
00:03:50
source de la donnée qui elle sera
00:03:51
très certainement mise à jour.
00:03:53
On a plus qu'à.
00:03:56
Renommer juste pour souvenir du coup,
00:03:57
région Wikipédia.
00:04:00
Et on a terminé.
00:04:00
Du coup,
00:04:01
c'est un port de tableau
00:04:02
provenant d'une page web.

Il n’existe aucun élément correspondant à votre recherche dans cette vidéo...
Effectuez une autre recherche ou retournez au contenu !

 

Mandarine AI: CE QUI POURRAIT VOUS INTÉRESSER

Rappel

Afficher