Utiliser RStudio
Pour introduire le cours de séries temporelles j’utilise un notebook R Markdown. Je mettrai les codes en ligne, mais pour que vous puissiez l’utiliser il vous faudra installer R et RStudio (une interface graphique pour R). Ces logiciels sont disponibles sous Windows, macOS ou linux, pouvez (par exemple) suivre ces instructions pour l’installation. Par la suite, j’utiliserai cet environnement pour les applications du cours.
L’intérêt d’un notebook, est que nous pouvons mélanger dans un même fichier du texte, avec éventuellement des équations, du code et, si le code est éxécuté, des résultats (sous forme de graphiques, tableaux…). Pour écrire du code que l’on souhaite évaluer il suffit d’appuyer sur CTRL+ALT+i. RStudio insérera alors un bloc où on pourra écrire du code R. Pour éxécuter le code, il suffit de placer le curseur dans le bloc, et l’appuyer sur CTRL+ENTER. Le résultat du code s’affichera alors sous le bloc de code. Par exemple, pour obtenir une approximation de la racine de 2 avec R:
sqrt(2)
[1] 1.414214
Vous pouvez en fait dans cet environnement utiliser d’autres langages que R, par exemple du Python (ce qui peut être nécessaire dans certaines circonstances). L’output du bloc de code n’est pas forcément numérique, il peut s’agir d’un graphique ou d’un tableau. Par exemple :
plot(cars)

Enfin une fois terminé vous pouvez exporter le fichier, avec les résultats obtenus pour les blocs de code, dans un fichier .html
ou .pdf
. Pour générer la sortie html saisissez CTRL+SHIFT+k (cela devrait aussi afficher la page).
Dans notebook vous pouvez aussi écrire des expressions mathématiques en utilisant \(\LaTeX\). Pour placer une expression dans un paragraphe il suffit d’écrire l’expression \(\TeX\) entre des $ (comme vous le feriez dans un fichier .tex
). Par exemple $f(k) = {n \choose k} p^{k} (1-p)^{n-k}$
donnera \(f(k)={n \choose k}p^{k}(1-p)^{n-k}\) dans les fichiers .pdf
ou .html
générés. Comme dans un fichier .tex
, vous obtiendrez une équation centrée sur une ligne en plaçant l’expression \TeX
entre double $. Par exemple $$T(\hat\rho_T-1)\underset{T\rightarrow \infty}{\Longrightarrow}\frac{1}{2}\frac{W(1)^2-1}{\int_0^1W(r)^2\mathrm dr)}$$
, donnera :
\[T(\hat\rho_T-1)\underset{T\rightarrow \infty}{\Longrightarrow}\frac{1}{2}\frac{W(1)^2-1}{\int_0^1W(r)^2\mathrm dr)}\]
Vous trouverez une documentation complète sur ce qu’il est possible de faire dans un notebook R Markdown dans ce livre (en anglais). Pour ceux qui, tout comme moi, ne sont pas familier avec R
vous pouvez commencer par lire cette introduction (en français).
Télécharger et représenter des séries temporelles
Exemple 1 : la durée de vie des rois (et reines) d’Angleterre
Commençons par télécharger des données en utilisant la fonction scan
. Les données sont disponibles à l’adresse https://robjhyndman.com/tsdldata/misc/kings.dat, où le contenu du fichier kings.dat
est :
Age of Death of Successive Kings of England
#starting with William the Conqueror
#Source: McNeill, "Interactive Data Analysis"
60
43
67
50
56
42
50
65
68
43
65
34
47
34
49
41
13
35
53
56
16
43
69
59
48
59
86
55
68
51
33
49
67
77
81
67
71
81
68
70
77
56
Les trois premières lignes sont sans intérêt pour nous, nous les éliminons avec l’option skip
de la commande scan
(voir ici pour une documentation complète de cette fonction) :
kings <- scan("http://robjhyndman.com/tsdldata/misc/kings.dat",skip=3)
Read 42 items
kings
[1] 60 43 67 50 56 42 50 65 68 43 65 34 47 34 49 41 13 35 53 56 16 43 69 59 48 59 86 55
[29] 68 51 33 49 67 77 81 67 71 81 68 70 77 56
L’objet kings contient les données. Ensuite nous allons instancier un object ts
(pour time-series, ou série temporelle en français) à partir de ces données (une documentation complète est disponible ici) :
s1 <- ts(kings)
s1
Time Series:
Start = 1
End = 42
Frequency = 1
[1] 60 43 67 50 56 42 50 65 68 43 65 34 47 34 49 41 13 35 53 56 16 43 69 59 48 59 86 55
[29] 68 51 33 49 67 77 81 67 71 81 68 70 77 56
et nous pouvons représenter graphiquement ces données :
plot.ts(s1)

Cette série semble relativement régulière, on n’observe pas de tendance (dans le niveau ou la volatilité). Notons néanmoins qu’il s’agit d’un fort mauvais exemple (pour notre cours) car il ne s’agit pas véritablement d’une série temporelle, au sens où nous l’entendrons dans ce cours. Sur l’axe des abscisses nous avons le « numéro », dans l’ordre chronologique, des souverains qui ont régné depuis Guillaume de conquérant… Il s’agit d’une représentation assez discutable du temps. Les intervalles de temps entre les observations 1 et 2 et entre les observations 3 et 4 (je ne sais pas de qui il s’agit) ne sont a priori pas les mêmes.
Naissances à New-York
Données mensuelles sur le nombre de naissances à New York de janvier 1946 à décembre 1959.
births <- scan("http://robjhyndman.com/tsdldata/data/nybirths.dat")
Read 168 items
s2 <- ts(births, frequency=12, start=c(1946,1))
plot.ts(s2)

On distingue une composante tendancielle (une baisse au début, entre 14=946 et 1949, puis une augmentation régulière jusqu’à la fin de l’échantillon) et une composante saisonnière (certains mois il y a en moyenne moins de naissances). On verra plus loin que l’on peut décomposer les séries en trois composantes :
- composante tendancielle,
- composante saisonnière,
- résidus.
Dans ce cours on va surtout s’intéresser à la dernière composante.
Télécharger un fichier csv: compter les tâches solaires
On télécharge les données dans un fichier csv depuis le site du WDC-SILSO (Royal Observatory of Belgium, Brussels).
library (RCurl)
downloaddata <- getURL("www.sidc.be/silso/INFO/sndtotcsv.php")
ssp <- read.csv (text = downloaddata, sep = ';', header=FALSE)
ssp$V5[ssp$V5==-1] <- NA # Replace -1 by NA (missing values)
ssp
ssp = ts(ssp$V5, frequency=365, start=c(1818, 1, 1))
plot.ts(ssp)

On observe un comportement « saisonnier » (plutôt cyclique) mais la série temporelle semble stable (pas de tendance, c’est probablement heureux).
Télécharger des données économiques avec dbnomics
Voir le site https://db.nomics.world/
On récupère une série sur le PIB français en fréquence trimestrielle (volume base 100 en 2005) où les données sont corrigées de la saisonnalité.
library(rdbnomics) # Voir https://git.nomics.world/dbnomics/rdbnomics
Registered S3 method overwritten by 'data.table':
method from
print.data.table
Visit <https://db.nomics.world>.
dbnomicsdata <- rdb(ids = c("Eurostat/namq_10_gdp/Q.CLV_I05.SCA.B1GQ.FR")) # On récupère l'adresse sur db.nomics.world
dbnomicsdata
gdp <- ts(dbnomicsdata$value, frequency=4, start = c(1975,1))
#lgdp <- log(gdp) # Si on veut représenter le log
#ggdp <- 400*diff(lgdp) # Approximation du taux de croissance
plot.ts(gdp)

Ici on observe clairement des fluctuations autour d’une tendance (pas de saisonnalité puisque les données téléchargées sont déjà corrigées pour cette composante).
Identifier les composantes d’une série temporelle
Nous avons vu que série sur les naissances à New-York admet trois composantes : une tendance, un cycle (saisonnier) et un terme résiduel (la différence entre la série observée et les deux premières composantes). Quand on cherche à prédire une série temporelle il peut être intéressant d’identifier ces composantes. Il est relativement simple de faire des prédictions sur les deux premières composantes.
s2components <- decompose(s2)
plot(s2components)

Dans ce cours on s’intéressera essentiellement à la dernière composante, en proposant des modèles qui permettent de construire des prévisions. Si on s’intéresse simultanément à la tendance et au terme résiduel; il suffit de rettrancher la composante saisonnière à la série observée :
s2seasonallyadjusted <- s2 - s2components$seasonal
plot.ts(s2seasonallyadjusted)

