nom_organisme nom_organisme nom_organisme nom_organisme
08 mars 2022
Quand l'apprentissage automatique décrypte le « langage » des masses d’air atmosphériques…
​Une collaboration menée par le LSCE (CEA-CNRS-UVSQ) applique pour la première fois une technique d'apprentissage automatique utilisée en linguistique à des bulletins météorologiques quotidiens couvrant 70 années. La voie est désormais ouverte à des analy
Quand l'apprentissage automatique décrypte le « langage » des masses d’air atmosphériques…

Diagram showing the analogy between the application of LDA to text documents and to a gridded observable map—here sea level pressure anomaly data. The equivalent of words in the latter case are the grid-points of the map and the value of the observable on the grid-points corresponds to the number of occurrences of the words. LDA identifies latent motifs—or topics in the case of text documents—in a corpus of documents that are defined by a distribution over the words of a finite vocabulary (see Methods for a detailed explanation), and then interpreted as meaningful patterns (e.g. “Colors”, “Fruits” and “Seasons” for the text documents or “Mediterranean Anticyclone”, “Azores Anticyclone” and “Icelandic low” for sea level pressure maps). Each word of the vocabulary, or equivalently each grid-point, can be associated with different motifs as represented by the word “orange” that can be seen as a fruit or a color.

Une collaboration menée par le LSCE (CEA-CNRS-UVSQ) applique pour la première fois une technique d'apprentissage automatique utilisée en linguistique à des bulletins météorologiques quotidiens couvrant 70 années. La voie est désormais ouverte à des analyses climatologiques hors d'atteinte pour les experts humains !  

Comment « lire » l'évolution du climat dans une masse de bulletins météo quotidiens ?

Voulant relever ce défi, les chercheurs en sciences de l'atmosphère utilisent des algorithmes (Empirical Orthogonal Functions ou k-means) pour réduire la complexité des champs de pressions. Ils obtiennent ainsi un petit nombre d'éléments de base qui peuvent cependant se révéler difficiles à interpréter ou bien, qui combinent des objets intriqués et donc impossibles à étudier séparément, comme les cyclones et les anticyclones.  

Des climatologues du LSCE ont mis en œuvre l'algorithme de machine learning LDA (Latent Dirichlet Allocation) qui, lui, conduit à isoler des structures à grande échelle (cyclones et anticyclones) qu'ils peuvent analyser individuellement. Un atout précieux pour étudier des événements comme les vague de froid ou les tempêtes extratropicales !

La LDA est capable d'analyser des milliers de documents en peu de temps et de mettre en exergue des éléments importants, des récurrences et des anomalies. Il est en particulier utilisé en linguistique pour étudier le langage naturel : son analyse des mots révèle le ou les thèmes d'un document, chaque thème étant identifié par un vocabulaire spécifique ou plus exactement, par une distribution statistique particulière de la fréquence des mots.

Dans l'usage que font les climatologues de la LDA, le document devient une carte météo quotidienne et le mot, un pixel de la carte. Le thème avec son corpus de mots peut devenir un cyclone ou un anticyclone, et plus généralement, un « motif ».

L'intelligence artificielle cherche des corrélations à la fois entre différents lieux sur une même carte, et entre les cartes successives au cours du temps. En quelque sorte, elle « remarque » que tel lieu est souvent corrélé avec tel autre lieu, de façon récurrente sur l'ensemble de la base de données, et cet ensemble de lieux corrélés constitue un « motif ».

L'algorithme effectue des analyses statistiques à deux niveaux distincts :

  • à l'échelle du mot ou du pixel de la carte, la LDA définit un thème ou « motif », en attribuant un certain poids à chaque pixel, et définit ainsi la forme et la position du « motif » ;
  • la LDA décompose une carte météo quotidienne sur l'ensemble de ces « motifs », qui se voient attribuer, chacun, un certain poids.

Concrètement, les données de base sont les cartes journalières de pression au niveau de la mer entre 1948 et 2018 sur l'Atlantique Nord. La LDA identifie 28 « motifs » définis dans l'espace (parmi lesquels, l'anticyclone des Açores, la dépression de Gênes ou l'anticyclone de Scandinavie) qui permettent de décrire toutes les cartes.

Ces « motifs » et les analyses statistiques qui leur sont associées permettent aux chercheurs d'étudier aussi bien des phénomènes météorologiques tels que des évènements extrêmes, que des tendances climatiques de plus long terme et éventuellement de comprendre leurs mécanismes pour mieux les prévoir à terme.

====================================================

The preprint of the study is available as:
Lucas Fery, Berengere Dubrulle, Berengere Podvin, Flavio Pons, Davide Faranda. Learning a weather dictionary of atmospheric patterns using Latent Dirichlet Allocation. 2021. ⟨hal-03258523)
https://hal-enpc.archives-ouvertes.fr/X-DEP-MECA/hal-03258523v1

Contact

Davide Faranda, LSCE-IPSL • davide.faranda@lsce.ipsl.fr

 
#289 - Màj : 09/03/2022
Retour en haut