De la conception d’un système d’observation à large échelle au déploiement et à l’exploitation de son système d’information - Application à l’observation des habitats coralligènes et à la colonisation de récifs artificiels (ARMS)

Soutenance de thèse de Romain DAVID, vendredi 6 juillet 2018 à 10h00


Thèse de Doctorat d’Aix-Marseille Université
Spécialité Ecologie Marine

Jury

D. Ienco, IRSTEA, Montpellier (rapporteur)
T. Saucède, Biogéosciences, univ. Bourgogne, Dijon (rapporteur)
L. Berti-Equille, AMU, Marseille (examinateur)
T. Tatoni, AMU, IMBE, Marseille (examinateur),
R. Vigne-Lebbe, MNHN-UPMC, Paris (examinateur)
J.-P. Féral, AMU, IMBE, Marseille (directeur)

Mots clefs : coralligène , observation, base de donnée, méditerranée, graphes, systemes d’information

Lieu
Campus St Charles
Salle Biodiversité (3ème étage)
Bâtiment de Sciences Naturelles

Résumé
Dans le domaine de l’environnement marin, la fréquence des campagnes de collecte de données recueillies lors de programmes de recherche, de suivis environnementaux [obligations européennes entre autres], d’études d’impact, (missions de terrain, capteurs optiques ou radar, suivi de la qualité des eaux, recensement automatique ou semi-automatique des taxons, etc.) conduisent à l’accumulation d’un volume considérable de données. Des protocoles d’observation sont constamment développés dans de nombreux cadres, et produisent des données très hétérogènes centrées sur l’utilisation souvent spécifique à un métier qu’envisage leur producteur. Du fait de leur hétérogénéité, celles-ci sont difficiles à agréger pour avoir une vue d’ensemble (on parle parfois “d’empilement de bases de données”). De plus, l’accès aux données n’est pas organisé et se révèle souvent difficile, voire même impossible. Cet accès pour de multiples utilisateurs et l’agrégation de données à large échelle sont pourtant incontournables pour mieux cerner les enjeux de protection de la biodiversité et des ressources marines, et anticiper leur détérioration irréversible.
Afin de mieux protéger la biodiversité marine et surtout afin que les enjeux de conservation et de préservation des ressources soient mieux pris en compte par les politiques publiques, il est nécessaire de renforcer la cohérence des systèmes d’observation et d’acquisition de nouvelles connaissances, et d’organiser l’accès aux données et résultats de recherche pour tous les utilisateurs potentiels. Faire des propositions pour améliorer la cohérence entre systèmes d’observation et systèmes d’information est l’objectif cadre de ce travail.

La rationalisation des moyens à investir pour préserver le bon état environnemental n’est possible qu’en réalisant un état des lieux des connaissances produites, des compétences disponibles et des verrous à lever (les blocages en terme de socle de connaissance autant que les blocages méthodologiques, sociologiques, scientifiques et fonctionnels décrits dans les systèmes aujourd’hui mis en oeuvre) pour la mise en place efficace de systèmes d’observation à large échelle. Nécessairement, les systèmes d’observations doivent être couplés à une architecture de systèmes d’information. Cette architecture doit permettre d’organiser la création et l’accès à la connaissance, de faciliter sa conservation, d’harmoniser les méthodes et systèmes de gestion et d’analyse de données.
La construction d’une démarche et d’un projet en réseau financé sur le long terme constitue un préalable à la pérennisation de systèmes de suivi à grande échelle. Les réseaux de suivi ensuite générés deviennent alors multi-usagers et devront permettre cette rationalisation des moyens investis dans la production de nouvelles connaissances. Ils doivent produire suffisamment de descripteurs fiables pour élaborer une indication performante, qui est elle même nécessaire aux démarches de reportage (D.C.S.M.M., D.H.F.F., D.C.E., Tableau de bord des mers françaises, O.N.B., etc).
Cette thèse a pour objectif de i) proposer des méthodes, protocoles et recommandations pour construire et/ou soutenir la mise en place des réseaux de suivis utiles et pérennes de la biodiversité à l’échelle d’une zone biogéographique ou sur le plan international, s’appuyant sur les acteurs locaux (dispositifs allant des suivis de gènes aux suivis d’espèces et d’habitats) ii) favoriser les utilisations multiples et novatrices des données tout en préservant les droits de l’auteur/inventeur des dispositifs, augmenter et améliorer les différents accès aux données (brutes, traitées et de synthèse)
Deux dispositifs « cas d’étude » ont été choisis pour ce travail : les habitats coralligènes à l’échelle de la Méditerranée et la colonisation de récifs artificiels (ARMS) dans différentes mers régionales en focalisant
-  sur la construction de réseaux de suivi et d’observation pérennes et utiles pour différents types d’usages
-  sur le partage efficace des connaissances à long terme avec ses différents utilisateurs potentiels (scientifiques, gestionnaires, élus, amateurs, grand public…) et sur l’inter-opération des systèmes d’informations
-  sur les méthodes, outils et interfaces d’analyses de données exploitant les nouvelles avancées dans le domaine du Big Data, de la gestion des données hétérogènes et de leur analyse sous forme de graphes.
Les habitats côtiers étant la cible principale de ce travail, le test des différents protocoles montre qu’une expérimentation à large échelle doit absolument être décrit très explicitement dans des termes standardisés au delà même du champ disciplinaire de l’écologie marine (si possible en les organisant en micro thésaurus à “aligner” avec les standards en cours de développement) et se baser sur des méthodes de mesures les plus simples possibles à mettre en oeuvre. Les tests effectués par différents opérateurs ont montré l’importance d’une formation, puis d’une mise à l’épreuve itérative sous la forme de confrontation des résultats sur une même observation, que ce soit sur le terrain ou pendant les analyses ex situ. Les temps d’apprentissages sont d’ailleurs à adapter aux types d’objets et/ou aux méthodes concernés (taxon, habitat, détermination, comptage, mesure...).
Le travail sur l’architecture des systèmes d’information et les débats concernant les cycles de vie de la donnée ont permi de mettre en évidence l’inefficacité d’un système centralisé, et l’inévitabilité d’un système de gestion modulaire, orienté “métier” et décentralisé. Il en découle que la non gestion actuelle des autorités est un verrou pour la traçabilité de la donnée et la reconnaissance des producteurs.
Grâce à l’organisation de l’accès aux données sous forme de flux paramétrables et ouverts, il a été proposé dans le cadre de cette thèse un mécanisme de couplage de données de différentes origines (des observations de terrain et des données décrivant les contextes) reposant sur la requalification des facteurs descriptifs hétérogènes en facteurs équivalents et simplifiés dont le choix repose sur un arbitrage collaboratif entre spécialistes. En se basant sur un prototype, une nouvelle méthode d’analyse de données environnementale et l’organisation de concept de fouille de données basé sur les graphes a été mise en démonstration et développée pour devenir générique. Des exemples de visualisations des données et différents types de démonstrations possibles partant des données ont été construits grâce à l’organisation d’ateliers de curation et de visualisation de données sous forme de graphes.
En conclusion, les premiers tests fonctionnels ont montré que l’information produite doit pouvoir être contrôlée en temps réel et de manière itérative, et que les processus de curation de la donnée doivent nécessairement être mis en place en même temps que la conception des procédés d’observation. En complément, les définitions de standards et l’accessibilité des données de contextes nécessitent un travail collaboratif plus poussé, produit sur le long terme et une fréquence soutenue, et être considérés pour toutes leurs utilisations possibles. Enfin, pour passer du prototype proposé à une infrastructure de recherche capable d’alimenter des systèmes d’aide à la décision dans le domaine environnemental, l’animation de groupes de travail interdisciplinaires (recherche thématique et recherche informatique) opérationnelle sur le plan international est indispensable ; celle-ci doit s’appuyer sur un personnel qualifié et dédié, et avoir pour objectif le décloisonnement des recherches et favoriser l’augmentation du temps de travail pluri-/interdisciplinaire en commun et des moyens dédiés à long terme aux processus de fouille et de curation des données pour l’aide à la décision dans le domaine environnemental.
En perspective, l’utilisation de la grille de calcul défini lors des ateliers pour faire de la fouille de graphes de manière parallélisé est proposé, avec le challenge de passage à l’échelle avec des données distribuées et très hétérogènes formant des graphes de plus d’un milliard de noeuds et plusieurs centaines de milliards de liens. Il sera possible de i) développer ces travaux en s’intéressant aux différents algorithmes de fouille de ces graphes, ii) s’intéresser aux verrous bloquant le passage à l’échelle sur des très grands jeux de données et iii) tester leur mise en oeuvre pour l’aide à la décision dans le domaine de la gestion de la biodiversité. Pour atteindre ces objectifs, les organismes s’occupant de recherche en écologie et ayant financé ces avancées doivent continuer à soutenir les activités du consortium IndexMEED créé dans le cadre de ce travail, ou développer des groupes interdisciplinaires semblables et les financer sur le long terme.