knitr::opts_chunk$set(
  collapse = TRUE,
  comment = "#>",
  echo = TRUE
)
library(dplyr)
library(magrittr)

Avant toutes choses

Nous aurons besoin du package ggplot2 :

library(ggplot2)

Nous allons également avoir besoin des données fruits :

data("fruits", package = "tidyViz")

Bien choisir sa représentation graphique {.centered}

From Data to Viz : https://www.data-to-viz.com/{width=50%}

Un échantillon de ce qu'il est possible de faire avec ggplot2 {.center}

{width=100%}

Diagramme en bâtons

Rappel : la fonction barplot

La fonction de base pour les diagrammes en bâtons est barplot :

barplot(table(fruits$groupe))

Avec des couleurs :

barplot(table(fruits$groupe), col = 1:4)

La fonction geom_bar

ggplot(data = fruits, aes(x = groupe, fill = groupe)) +
  geom_bar()

STOP !

Décomposition de la commande

Les données {.center}

{width=100%}

Les paramètres esthétiques {.center}

{width=100%}

Les géométries {.center}

{width=100%}

L'image à retenir {.center}

{width=80%}

[G]rammar of [G]raphics {.center}

{width=100%}

Implémentation dans ggplot2


Données data Les données à représenter. Chaque ligne représente un élément à représenter graphiquement. Géométries geom_ Les formes à créer pour représenter les données. Cela peut être des points, des lignes, des surfaces etc. Esthétiques aes() Les paramètres esthétiques de ces formes. Par exemple la position, la couleur, la taille, la forme, la transparence etc. Échelles scale_ Des fonctions permettant de paramétrer la transformation de données en formes ou en objets graphiques. Par exemple la fonction scale_color_manual permet de choisir soi-même les couleurs à utiliser dans un graphique.


A vous ! {.columns-2}

Comment corriger la commande suivante pour obtenir le graphe à droite ?

 ggplot(***, 
     aes(***, 
     fill = Sucres > 10)) +
   geom_***()

{width=100%}

Un peu d'histoire {.columns-2}

Hadley Wickham{width=50%}

Quelques géométries

Nous allons voir ensemble quelques géométries particulières qui permettent de créer des graphes classiques.


geom_bar Diagramme en bâtons sur des données non-agrégées geom_col Diagramme en bâtons (encore) sur des comptages existants geom_histogram Histogramme d'une variable quantitative geom_boxplot Diagramme de Tukey aka "boîte à moustache" aka boxplot geom_violin Diagramme en "violons" geom_point Nuage de points créé à partir de deux variables quantitatives geom_line Ligne tracée à partir de deux variables quantitatives


Diagrammes en bâtons

Avec geom_bar

On a déjà vu comment faire :

ggplot(fruits, aes(cut(Eau, c(0, 84.2, 100)))) + 
  geom_bar(fill = "steelblue")

Avec geom_col

S'utilise quand on dispose déjà de comptages.

dat.count <- fruits %>% 
  group_by(groupe) %>%
  summarize(Csup10 = sum(VitamineC >= 10))

ggplot(data = dat.count, aes(x = groupe, y = Csup10)) +
  geom_col()

A vous !

Comment modifier les deux commandes précédentes pour faire un diagramme en bâtons montrant des pourcentages plutôt que des comptages bruts ?

(PS : il y a plus d'une solution possible)

Histogrammes

Histogramme ou diagramme en bâtons ? {.columns-2 .smaller}

ggplot(fruits, aes(Sucres)) + 
  geom_bar()
ggplot(fruits, aes(Sucres)) + 
  geom_histogram()

Histogramme ou diagramme en bâtons ? {.columns-2}

Diagramme en bâtons

Représente des comptages de :

Histogramme

Représente des comptages ou des densités de :

Pour ce genre de graphe, il est important de choisir les intervalles sur lesquels les données seront énumérées.

L'histogramme par défaut {.columns-2 .smaller}

{width=80%}

ggplot(fruits, aes(Sucres)) + 
  geom_histogram()

Exercice qui n'a (presque) rien à voir!

Dans un document R Markdown, comment faire pour ne pas afficher le message dans votre rapport ?

... il y a plusieurs solutions possibles...

Modification des intervalles

ggplot(fruits, aes(Sucres)) + 
  geom_histogram(breaks = seq(0, 75, 5))
ggplot(fruits, aes(Sucres)) + 
  geom_histogram(breaks = seq(0, 75, 5))

Modification de la couleur

ggplot(fruits, aes(Sucres)) + 
  geom_histogram(breaks = seq(0, 75, 5),
                 fill = "steelblue")
ggplot(fruits, aes(Sucres)) + 
  geom_histogram(breaks = seq(0, 75, 5),
                 fill = "steelblue")

Modification de la couleur

ggplot(fruits, aes(Sucres)) + 
  geom_histogram(breaks = seq(0, 75, 5),
                 fill = "steelblue",
                 color = "white")
ggplot(fruits, aes(Sucres)) + 
  geom_histogram(breaks = seq(0, 75, 5),
                 fill = "steelblue",
                 color = "white")

Boxplot

{width=100%}

Boxplot d'une variable

ggplot(data=fruits, aes(x = Sucres)) + 
  geom_boxplot()

Boxplot : lien entre une variable catégorielle et une variable continue

ggplot(data=fruits, aes(x=groupe, y=Sucres)) + 
  geom_boxplot()

Avec des violons {.columns-2 .smaller}

ggplot(data=fruits, 
       aes(x = Sucres, y = 1)) + 
  geom_violin()

ggplot(data=fruits, 
       aes(x = groupe, y = Sucres)) + 
  geom_violin()

A vous ! {.columns-2}

Complétez le code suivant pour obtenir la figure de droite :

ggplot(fruits, 
       aes(x = Fibres > 1.5, 
           y = Proteines, 
           fill = ***)) + 
  geom_***()

{width=100%}

Personnalisation

Thèmes

Les thèmes sont des fonctions qui permettent de modifier certains paramètres graphiques comme :

Exemple de fonctions thèmes (theme_***()) :

Exemple sur un histogramme : theme_bw()

ggplot(fruits, aes(Fibres)) + 
  geom_histogram() + 
  theme_bw()

Exemple sur un histogramme : theme_minimal()

ggplot(fruits, aes(Fibres)) + 
  geom_histogram() + 
  theme_minimal()

Exemple sur un histogramme : theme_void()

ggplot(fruits, aes(Fibres)) + 
  geom_histogram() + 
  theme_void()

A vous ! {.columns-2}

  1. Consultez la page d'aide de la fonction theme_bw avec la commande ?theme_bw
  2. Choisissez la thème permettant de réaiser le graphe à droite en complétant la commande suivante.
ggplot(fruits, aes(y = Fibres)) + 
  geom_boxplot() + 
  theme_***()

{width=100%}

Autres personnalisations "simples"

Mais je vous conseille d'utiliser la fonction labs qui permet de faire tout cela, et plus !

labs(
  title = "Titre du graphe",
  subtitle = "Sous-titre du graphe",
  x = "Titre de l'axe des x",
  y = "Titre de l'axe des y",
  color = "Titre de la légende des couleurs",
  shape = "Titre de la légende des formes"
)

Personnalisations avancées

Avec la fonction theme(), qui a une syntaxe bien particulière : chaque élément doit être spécifié selon sa nature.

Ce que l'on peut changer avec theme()

Nuages de points

Avec geom_point

Cette géométrie nécessite des paramètres esthétiques de position (en $x$ et $y$), et accepte optionnellement des paramètres esthétiques de taille, couleur et forme.

ggplot(fruits, aes(x = Phosphore, y = Calcium, size = Magnesium)) + 
  geom_point()

Paramètres esthétiques

Lorsqu'ils sont spécifiés dans la fonction aes(), ces paramètres appliquent les valeurs d'une variable à une caractéristique des objets graphiques tracés par les géométries.

Lorsqu'ils sont appliqués en dehors de la fonction aes(), leur comportement est plus général !

Exemple {.columns-2 .smaller}

ggplot(fruits, 
       aes(x = Phosphore, y = Calcium, 
           color = Magnesium)) + 
  geom_point() + 
  theme(legend.position = "bottom")

ggplot(fruits, 
    aes(x = Phosphore, y = Calcium)) + 
  geom_point(color = "limegreen")

A vous ! {.columns-2 .smaller}

Complétez la commande suivante pour obtenir le graphe ci-contre.

ggplot(fruits,
       aes(x = Sucres, 
           y = Proteines, 
           *** = Magnesium, 
           *** = ***)) + 
  geom_***() + 
  ***(title = "Fruits",
     x = "Sucres (g/100 g)", 
     y = "Protéines, N x 6.25 (g/100 g)",
     size = "Magnésium\n(mg/100 g)",
     ***= "Groupe") + 
  theme_***()

{width=100%}

Au secours, mes points se superposent! {.columns-2}

Pas de panique, on peut utiliser la transparence (aka alpha) :

ggplot(fruits, 
       aes(x = Phosphore, 
           y = Calcium, 
           color = groupe)) + 
  geom_point(alpha = 0.5, 
             size = 2) + 
  theme_bw() + 
  theme(legend.position = 
          "bottom")

ggplot(fruits, 
       aes(x = Phosphore, 
           y = Calcium, 
           color = groupe)) + 
  geom_point(alpha = 0.5, 
             size = 2) + 
  theme_bw() + 
  theme(legend.position = 
          "bottom")

Changer les échelles

Avec les fonctions scale_*** {.smaller}

Ces fonctions vont vous permettre de personnaliser l'échelle, en $x$, en $y$, mais pas seulement ! Ce concept est généraliser dans ggplot2 à de nombreux paramètres esthétiques. Par exemple :

A vous ! {.columns-2}

Complétez la commande suivante pour obtenir le graphe ci-contre.

ggplot(fruits, 
       aes(Phosphore, 
           Calcium)) + 
  geom_point(*** = "white") + 
  scale_***() + 
  scale_***() + 
  labs(x = "log10(Phosphore)",
       y = "log10(Calcium)") + 
  theme_dark()

{width=100%}

Avec les fonctions coord_***

Pour modifier le système de coordonnées après avoir appliquer toutes les transformations spécifiées auparavant (par une fonction scale_*** par exemple). Par exemple :

Pour s'amuser !

Transformez les coordonnées du graphe suivant en coordonnées polaires (coord_polar(theta = "y")). Quel est le résultat ?

ggplot(fruits, aes(x = 1, fill = groupe)) + 
  geom_bar(width = 1) + 
  theme_void()

Avec les fonctions *lim*

Change le minimum et le maximum d'un axe. Attention, toutes les valeurs en dehors des nouveaux axes sont éliminées !

Pour faire un "zoom" sans perdre de points, il faut utiliser la fonction coord_cartesian ou une fonction du type scale_***

Créer des "facettes"

La fonction facet_wrap

S'uilise pour diviser le graphe en panneaux selon les modalités d'une variable catégorielle.

Attention à la syntaxe : elle est basée sur l'utilisation du terme vars, qui permet d'accéder aux variables du jeu de données spécifié.

Par exemple, pour diviser le graphe g en plusieurs panneaux selon les modalités d'un facteur fac, on écrira

g + facet_wrap(facets = vars(fac))

On peut également utiliser une "formule" :

g + facet_wrap(~ fac)

Exemple {.columns-2}

ggplot(fruits, 
       aes(x = Phosphore, 
           y = Calcium, 
           color = groupe)) + 
  geom_point() + 
  facet_wrap(vars(Sucres > 10)) + 
  theme_bw() + 
  theme(legend.position = 
          "bottom")

ggplot(fruits, 
       aes(x = Phosphore, 
           y = Calcium, 
           color = groupe)) + 
  geom_point() + 
  facet_wrap(vars(Sucres > 10)) + 
  theme_linedraw() + 
  theme(legend.position = 
          "bottom")

Avec la fonction facet_grid

S'utilise de la même façon que facet_wrap.

Par exemple, pour diviser le graphe g en plusieurs panneaux selon les modalités d'un facteur factorow pour les lignes et factocol pour les colonnes, on écrira

g + facet_grid(rows = vars(factorow), cols = vars(factocol))

On peut aussi utiliser une formule :

g + facet_grid(factorow ~ factocol)

CONSEIL : pour l'utilisation de facettes, faites attention à bien nommer les modalités de vos facteurs pour rendre le graphe plus clair.

Sauvegarder un graphe

Méthode conseillée : avec ggsave

Fonctionnement et exemple :

g <- ggplot(fruits, aes(groupe)) + geom_bar()
ggsave(filename = "mongraphe.png", plot = g)

L'extension donnée dans filename sera magiquement détectée pour sauvegarder le fichier au bon format !

Conclusion

En quelques mots

Nous avons vu un package de représentations graphiques très puissant ! ggplot2 fonctionne sur la base d'un canevas, de paramètres esthétiques comme la position en $x$, en $y$, les couleurs, la forme etc. A partir de ces paramètres, on va tracer les graphes à l'aides de géométries, qui peuvent se superposer !

Quelques remarques

  1. ggplot2 est très complet... et très complexe
  2. Il faut prendre son temps, et savoir travailler avec ses petits jeux de données préférés bien connus et très très très très propres pour travailler sur son graphe,
  3. Personnaliser un graphe prend du temps, il faut s'armer de patience...

N'oubliez pas la feuille de triche ! {data-background=#ffffff}

{width=50%}



vguillemot/tidyViz documentation built on Dec. 23, 2021, 3:09 p.m.