McLaren, Nick & Shanbhogue, Rachana, 2011. "Using internet search data as economic indicators," Bank of England Quarterly Bulletin, Bank of England, vol. 51(2), pages 134-140.
Résumé de l'article
Cet article publié par deux économistes de la Bank of England s'intéresse à l'ajout du volume de recherche Google pour la prévision ou le "nowcasting" de variables macroéconomiques, en complément des sondages d'opinion déjà existant. En plus des avantages connus de l'utilisation des recherches sur Google (taille du sample, données temps réel...), les auteurs soulignent tout de même le fait que ces données ne soient disponibles que depuis 2004 ainsi que le fait que l'échantillon ne soit pas vraiment représentatif de la population (sur-représentation de certains classes d'âge ou de CSP).
L'idée est de comparer un modèle benchmark avec comme variable dépendante le taux de chômage et le prix immobilier par rapport à (1) un modèle avec comme variable explicative la "variable Google" (requête "Jobseeker Allowance" pour le taux de chômage et "estate agents" pour le prix de l'immobilier), (2) un ou plusieurs modèles prenant en compte des variables classiques de sentiment (indice de confiance des ménages, sondage sur immobilier) et enfin (3) un modèle comprenant l'ensemble des variables de sentiment (+lags de la variable dépendante dans tous les modèles).
Pour le marché du travail, les auteurs considèrent donc une variable Google basée sur le nombre de requête "JSA" (Jobseeker's Allowance), ainsi que deux variables classiques que sont le "claimant count" (CC) et la réponse au sondage GfK "How do you expect the number of people unemployed in this country will change over the next twelve months ?". La variable dépendante est le taux de chômage mesuré lors du Labour Force Survey. Les résultats sont les suivants :
Comme on peut le voir, le modèle prenant en compte le "JSA" via Google apporte des résultats presque aussi bon que celui du "claimant count". De plus, en considérant un modèle avec les trois variables explicatives, la variable "JSA" est significative et le modèle final apporte un meilleur résultat que chaque modèle individuel (meilleur R-squared), indiquant que notre variable "Google" permet de un gain en précision sur un échantillon de 2004 à 2011.
Ensuite, la performance de chaque modèle est considérée out-of-sample, en estimant la valeur des coefficients sur une période de 2004 à juin 2008, puis en estimant l'erreur de prévision (RMSE = Residual Mean Squared Error) entre le modèle et le chiffre officiel pour chaque période de juillet 2008 à 2011). Le principe de la rolling window out-of-sample est utilisé pour calculer le RMSE, ce qui signifie que pour estimer juillet 2008, les coefficients sont calculés jusqu'à juin 2008, puis une prévision est réalisée et comparée au chiffre officiel de juillet 2008 (avec calcul de l'erreur). Ensuite, pour estimer août 2008, les coefficients sont réestimés en étendant l'échantillon pour prendre en compte le chiffre de juillet. Le but de ce type d'étude est de simuler une analyse en temps réel en fonction des données effectivement disponibles à l'époque.
Les résultats sont particulièrement intéressants en ce qui concerne le marché immobilier ; la prise en compte de la requête "estate agents" améliorant à la fois significativement le modèle par rapport à l'utilisation du "house price growth balance" de la Home Builder Federation (HBF) et le "Royal Institution of Chartered Surveyors" (RICS), que ce soit in-sample ou en rolling forecast out-of-sample.
L'utilisation des requêtes Google permet de plus d'avoir un backrun pour n'importe quel terme, tandis que par définition, un sondage ne peut fournir des données qu'en ce qui concerne les questions qui ont été posées.
"As further developments are made in this area, and the backrun of the data increases, these data are likely to become an increasingly useful source of information about economic behaviour."
Points intéressants
(1) La Banque d'Angleterre commence à intégrer ce type de données dans leurs modèles de prévision et de surveillance de l'économie, en plus des indicateurs classiques. "The Bank will continue to monitor these data as part of the range of different indicators it considers in forming its view about the outlook for the economy of the United Kingdom."
(2) Les auteurs comparent l'ajout de la variable "Google" par rapport à un modèle benchmark autorégressif, ainsi que par rapport à des modèles utilisant les variables classiques de forecast. La Banque d'Angleterre précise que les modèles présentés sont simplifiés par rapport aux modèles utilisés par la BoE. Il est possible que dans un modèle plus complexe, la variable "Google" perde de sa significativité.
(3) L'utilisation de l'analyse out-of-sample avec rolling window permet de tester le pouvoir de prévision de chaque modèle
(4) L'avantage de backrun illimité, contrairement aux sondages d'opinions, peut permettre de considérer des variables ou des facteurs n'ayant jamais été analysé auparavant.
(5) Les auteurs ne parlent pas des problèmes potentiels de la révision des données de la variable dépendante (utilisation de la final release ou des données "vintage" ?)