La fonction Advanced data analysis de Chatgpt 4 est très intéressante pour faire de l’analyse de tableurs. Cela facilite grandement l’exécution des analyses, calculs et cartographies. Mais combien de tableurs peut-on analyser en même temps ? Et quelle taille de tableur peut-on analyser ? Ce sont les deux questions passionnantes (n’est-ce pas 😉 auxquelles je réponds dans cet article qui présente mes derniers tests pour les formations en intelligence artificielle générative. Voyons donc les résultats :
1- D’une analyse de 24 tableurs.
2- D’une analyse d’un tableur de 22 000 lignes.
1/ Data analysis de Chatgpt sur 24 tableurs
Data analysis de ChatGPT
Dans ce premier exemple, je prolonge l’atelier « Cartographier avec ChatGPT » dans lequel je produisais un graphe en réseau de type Gephi. Cette fois ci-, ce sont 24 tableurs qui seront chargés dans ChatGPT 4. J’ai téléchargé ces tableurs depuis l’excellent site Nosdeputes.fr à partir duquel j’avais déjà téléchargé de gros volumes de données pour une mission précédente en lobbying. Dans le cas présent, j’ai téléchargé les participations de nos députés aux commissions existantes au sein de l’Assemblée nationale. Ces tableurs contiennent des données publiques. Il n’y a donc pas de problème de confidentialité des informations. Mon test consistait donc à faire ingérer à ChatGPT ces 24 tableurs pour voir si la fonction ChatGPT data analysis allait bien s’en sortir.
J’ai commencé doucement par intégrer un tableur, puis un second, puis des paquets de 10.
Prompts
Premier prompt :
Tu es analyste expert en data visualisation.
Tu as de fortes compétences en analyse de tableur.
Voici un tableur en format CSV.
Dans la colonne nom_de_famille tu vas trouver le nom de famille des députés.
Dans le nom de la feuille (onglet), tu vas trouver le nom de la commission.
Tu vas créer une cartographie de type GEPHI, avec une visualisation de réseaux. Au centre de la cartographie, tu vas placer les noms des commissions.
En périphérie de la cartographie, tu vas placer les noms de famille des députés membres de cette commission.
Fais une première cartographie GEPHI avec ce premier tableur. Ensuite, je téléchargerai d’autres tableurs, et tu ajouteras les données utiles (nom de commission et nom des députés) à la cartographie.
Est-ce que tu as compris ? Est-ce que tu as des questions ?
Cartographie
Et voici la première cartographie avec le premier tableur.
Deuxième prompt :
Parfait. Je vais télécharger un autre tableur et tu vas ajouter le nom de la commission et les noms des députés exactement de la même manière.
Réponse de ChatGPT :
D’accord, je suis prêt à ajouter les données du nouveau fichier à la visualisation de réseau actuelle. Veuillez télécharger le fichier CSV suivant, et je procéderai à l’extraction et à l’ajout des informations pertinentes.
J’ai ensuite intégré les tableurs par paquet de 10. Et j’ai demandé des modifications de différents types pour améliorer la visibilité. Tantôt en demandant que les bulles représentant les commissions aient une taille proportionnelle au nombre de députés participants. Tantôt en demandant de minimiser les bulles représentant les commissions. C’est beau, non ?
Je me suis ensuite amusé à lui demander différentes visualisations : Circular Layout, Force Atlas 2, Yifan Hu, Kamada-Kawai. Tout n’est pas concluant, et il a par exemple bloqué pour Force Atlas 2. Mais peu importe, le test est concluant. Passons au second test.
2/ Data analysis de Chatgpt sur un tableur de plus de 22 000 lignes
Collecte des sources
Pour analyser un tableur qui ne soit pas personnel, je me suis amusé à faire une petite Google Dork. Allez, je suis sympa je vous la donne et vous l’explique. Ce sont des bases en matière d’Osint.
filetype:xls OR filetype:xlsx OR filetype:csv Martin OR Smith name surname address grant university
Explication :
- filetype:xls OR filetype:xlsx OR filetype:csv : permet d’avoir des tableurs
- Martin OR Smith : permet de maximiser les chances d’avoir des tableurs renseignés. Sinon, on peut facilement tomber sur des documents vides.
- name surname address : permet d’avoir des données nominatives (spéciale dédicace au RGPD).
- grant university : ça, c’est juste parce que j’étais tombé il y a quelques temps sur un tableur de 48 000 lignes qui présentait des subventions ou bourses dans des universités américaines. J’espérais le retrouver.
Il y a beaucoup de résultats, et je me suis arrêté sur un tableur de 22 248 lignes (très exactement) et d’un poids d’environ 5 Mo. Cela suffira pour le test.
Prompt
Premier prompt :
Tu es analyste expert en data visualisation. Tu as de fortes compétences en analyse de tableur. Tu vas analyser ce tableur et m’indiquer ce qu’il contient.
Réponse :
Le fichier CSV que vous avez fourni contient des informations sur les licences de salons de beauté cosmétologiques. Voici un aperçu des données qu’il contient :
- Type de Licence (LICENSE TYPE) : Indique le type de licence, qui est ici ‘Cosmetology Beauty Salon’.
- Numéro de Licence (LICENSE NUMBER) : Le numéro attribué à chaque licence.
- Date d’Expiration de la Licence (LICENSE EXPIRATION DATE) : La date à laquelle la licence expire.
- Comté (COUNTY) : Le comté où le salon de beauté est situé.
- Nom (NAME) : Le nom du salon de beauté.
- Adresse Postale (MAILING ADDRESS LINE1, MAILING ADDRESS LINE2, MAILING ADDRESS CITY, STATE ZIP) : Adresse postale du salon.
- Numéro de Téléphone (PHONE NUMBER) : Numéro de téléphone associé au salon (beaucoup d’entrées semblent manquantes dans cette colonne).
- Nom Commercial (BUSINESS NAME) : Nom commercial du salon.
- Adresse Commerciale (BUSINESS ADDRESS-LINE1, BUSINESS ADDRESS-LINE2, BUSINESS CITY, STATE ZIP) : Adresse physique du salon.
- Code du Comté Commercial (BUSINESS COUNTY CODE) : Code du comté où le salon est situé.
- Comté Commercial (BUSINESS COUNTY) : Nom du comté où le salon est situé.
- Code Postal Commercial (BUSINESS ZIP) : Code postal de l’adresse commerciale.
- Téléphone Commercial (BUSINESS PHONE) : Numéro de téléphone du salon.
- Sous-type de Licence (LICENSE SUBTYPE) : Sous-type de la licence, ici ‘CS’ pour tous les enregistrements.
- Indicateur de Formation Continue (CONTINUING EDUCATION FLAG) : Indique si le salon nécessite une formation continue (‘Y’ pour Oui).
Ces informations semblent être utiles pour suivre et gérer les licences des salons de beauté dans une région donnée.
–> S’il y en a qui veulent former des personnes dans des salons de beauté aux États-Unis qu’ils me contactent, j’ai un tuyau ;-))
Deuxième prompt :
Peux-tu me conseiller la visualisation la plus appropriée pour mettre en valeur les données contenues dans ce tableur.
Réponse :
Pour visualiser efficacement les données de votre fichier CSV concernant les licences de salons de beauté, il est important de choisir des visualisations qui mettent en évidence les aspects clés de vos données. Voici quelques suggestions :
Carte Géographique :
Usage : Pour visualiser la répartition géographique des salons de beauté.
Données à Utiliser : ‘BUSINESS CITY, STATE ZIP’ et ‘COUNTY’.
Avantages : Permet de voir facilement les concentrations de salons dans différentes régions.
Histogrammes ou Diagrammes en Bâtons :
Usage : Pour montrer la distribution des salons par comté ou par code postal.
Données à Utiliser : ‘BUSINESS COUNTY’ ou ‘BUSINESS ZIP’.
Avantages : Facile à lire, bon pour comparer des quantités.
Graphique en Secteurs (Camembert) :
Usage : Pour représenter la proportion des salons nécessitant une formation continue.
Données à Utiliser : ‘CONTINUING EDUCATION FLAG’.
Avantages : Donne une vue d’ensemble rapide des proportions.
Diagramme de Répartition Temporelle :
Usage : Pour montrer la répartition des dates d’expiration des licences.
Données à Utiliser : ‘LICENSE EXPIRATION DATE’.
Avantages : Utile pour planifier des contrôles ou des renouvellements de licences.
Tableau de Bord Interactif :
Usage : Pour une analyse plus approfondie, combinant plusieurs types de graphiques.
Données à Utiliser : Toutes les données pertinentes.
Avantages : Permet une exploration interactive des données sous différents angles.
Graphique à Bulles :
Usage : Pour comparer le nombre de salons entre les comtés en fonction de la population ou d’autres variables.
Données à Utiliser : ‘BUSINESS COUNTY’ avec des données démographiques externes.
Avantages : Bon pour montrer la relation entre deux ou trois variables.
L’outil ou la plateforme que vous utiliserez pour ces visualisations dépendra de vos préférences et de votre familiarité avec les outils de visualisation de données comme Tableau, Power BI, ou même des bibliothèques Python comme Matplotlib ou Seaborn.
Cartographies
J’ai ensuite testé toutes les cartographies une par une.
Deux seulement sont visuellement intéressantes. Le reste manquait d’intérêt.
Il y a un problème dans le comté de Harris, vous ne trouvez pas 😉
Pour finir, je lui ai demandé une cartographie géographique des États-Unis avec une représentation visuelle du volume de salons par comtés ou par États… mais sans succès. J’ai tenté de télécharger un autre tableur avec la répartition des comtés par États, mais le bougre n’a rien voulu savoir. Ça me donnera l’occasion de faire d’autres tests lors de mes prochaines formations 😉 Affaire à suivre …
Conclusion : la fonction data analysis de Chatgpt 4
Le téléchargement et l’analyse de plusieurs tableurs se passent très bien. Les commandes sont bien comprises (grossir certaines bulles en fonction du nombre de liens…). Le téléchargement d’un gros tableur se passe aussi très bien. L’analyse des champs et la proposition de graphiques adaptés semblent plutôt bonnes. Tout cela est prometteur. Il y a de quoi utiliser l’intelligence artificielle pour faire de l’intelligence économique !
Jérôme Bondu