Mégadonnées, migration et mobilité humaine
Le terme « mégadonnées » englobe les données anonymisées générées par les utilisateurs de dispositifs mobiles, les plateformes Internet, ou par les capteurs et compteurs numériques, comme l’imagerie satellite. Avec environ 5,16 milliards d’utilisateurs mobiles uniques, et quelque 4,57 milliards d’utilisateurs actifs d’Internet dans le monde entier (We Are Social − Hootsuite, 2020), ces « traces numériques » sont une occasion extraordinaire de compléter les sources traditionnelles de données migratoires et d’améliorer la connaissance des divers aspects de la migration. Cette possibilité revêt une importance particulière compte tenu des lacunes actuelles en matière de données et de la nécessité de suivre les progrès accomplis pour atteindre les cibles des objectifs de développement durable (ODD) relatives à la migration. Toutefois, le potentiel que recèlent ces sources novatrices s’accompagne de défis majeurs.
Back to top
Définition
On entend généralement par mégadonées les données générées automatiquement par les utilisateurs de téléphones mobiles, les réseaux sociaux, les plateformes et applications Internet, ainsi que les capteurs et les compteurs numériques. Ces données sont enregistrées en temps réel dans de grandes bases de données, appartenant généralement à des entreprises privées – qu’il s’agisse d’opérateurs de téléphonie mobile, de fournisseurs de plateformes pour les réseaux sociaux ou autres services reposant sur Internet. Mais les mégadonnées ne sont pas seulement « méga » du fait de leur volume ; la rapidité (« vélocité ») à laquelle elles sont générées et la complexité (« variété ») des informations sont aussi considérées comme des caractéristiques distinctives de ce type de données (Hilbert, 2013).
Les mégadonnées diffèrent des données fondées sur les enquêtes traditionnelles auprès des ménages dans la mesure où elles ne se réfèrent pas à un échantillon aléatoire de personnes mais à la totalité de la population utilisant, par exemple, les téléphones mobiles ou les plateformes Internet, et où des données sont accessibles en temps réel (Hilbert, 2014). Elles diffèrent aussi des données traditionnelles en raison des méthodes techniques et analytiques spécifiques requises pour en extraire des informations pouvant être exploitées et transformer ainsi ces données en « valeur » (de Mauro, Greco et Grimaldi, 2016). Letouzé (2015) fait la distinction entre les mégadonnées en tant que données, ou traduction « numérique » des actions, interactions et transactions humaines collectées par des dispositifs et services numériques, et les mégadonnées en tant qu’écosystème de données et de capacités et de communautés humaines et techniques produisant et utilisant ces informations pour prendre des décisions.
Évolutions récentes
Ces dernières années, il est apparu qu’un nombre croissant de projets et d’applications pouvaient utiliser diverses sources de mégadonnées – comme les téléphones mobiles, les réseaux sociaux ou les données satellite – pour améliorer la compréhension de phénomènes liés à la migration et à la mobilité humaine mondiales. Le scepticisme de départ – notamment au sein de la communauté statistique (Groupe de travail mondial des Nations Unies sur l’utilisation des mégadonnées en statistique officielle, 2016) – a fait place à la prise de conscience de la valeur de ces sources de données novatrices pour compléter les sources de données et les méthodologies traditionnelles employées dans les statistiques migratoires. L’innovation en matière de données, y compris de mégadonnées, est désormais le sujet d’étude de divers groupes de travail (Ibid., 2020 ; Eurostat Big Data Task Force, 2020 ; UN Global Pulse, 2020), et est mentionnée dans les principaux cadres d’orientation mondiaux sur la migration, comme le Pacte mondial pour des migrations sûres, ordonnées et régulières (Pacte mondial pour des migrations sûres, ordonnées et régulières).
Big Data for Migration Alliance (BD4M) – initiative conjointe du GMDAC de l’OIM et du Centre commun de recherche (CCR) de la Commission de l’UE – rassemble de nombreux projets innovants dans ce domaine dans un répertoire sur l’innovation en matière de données. En coopération avec un certain nombre de partenaires internationaux, ce répertoire offre des informations actualisées sur les projets, les initiatives et les applications relatifs aux nouvelles sources de données et aux méthodologies novatrices en matière de migration et de mobilité humaine, afin de faciliter l’accès aux connaissances existantes dans ce domaine en rapide mutation. Il convient notamment de mentionner les exemples suivants :
-
Les relevés détaillés des appels téléphoniques mobiles ont été utilisés pour suivre les déplacements internes à la suite de catastrophes naturelles, comme le tremblement de terre au Népal, ou la propagation de maladies, comme la COVID-19 (Wilson et al., 2016 ; Flowminder & Ghana Statistical Services, 2020 ; Pepe et al., 2020). Si les données de ces relevés sont généralement plus utiles pour mettre en évidence des schémas migratoires internes, elles pourraient aussi être utilisées pour mesurer la migration internationale à l’échelle infrarégionale, en particulier lorsqu’elles sont combinées à d’autres sources. Par exemple, la combinaison des relevés détaillés des appels téléphoniques mobiles avec les données satellitaires peut aider à cartographier les mouvements entre communautés transfrontalières (Sorichetta, 2017) ; les relevés conjugués à des statistiques de recensements peuvent contribuer à comprendre les schémas d’intégration des réfugiés (Boy et. al., 2019) ; et les relevés détaillés croisés avec les données géolocalisées des réseaux sociaux et les statistiques officielles de la main-d’œuvre peuvent permettre d’évaluer l’intégration sociale des migrants dans les pays de destination.
-
La géolocalisation des activités sur les réseaux sociaux, comme Twitter et Facebook, a été utilisée pour déduire l’existence des flux migratoires et des populations de migrants internationaux, et leur ventilation en fonction de l’âge, du sexe et du niveau de qualification ou du secteur professionnel, sur la base des informations communiquées par les utilisateurs eux-mêmes (Zagheni, Kiran et State, 2014 ; Patel, 2017 ; Gendronneau, 2019). Par exemple, pendant la pandémie de COVID-19, les cartes de prévention de la maladie de Facebook ont fourni quotidiennement des données sur la répartition de la population et les mouvements de population, pouvant être utilisées pour analyser la flambée de la maladie de manière plus approfondie (Maas et. al., 2020). Globalement, le nombre d’utilisateurs actifs des réseaux sociaux dans le monde entier en avril 2020 a atteint 3,8 milliards (We Are Social and Hootsuite, 2020), dont 2,6 millions d’utilisateurs Facebook (Statista, 2020). La popularité de ces plateformes, alliée aux informations géolocalisées qui peuvent en être extraites, peut être exploitée pour étudier les schémas de la mobilité.
-
Les données des réseaux sociaux peuvent aussi être utilisées pour fournir des informations comme dans un « recensement en temps réel » à l’échelle nationale ou mondiale à un moment donné (Zagheni, Weber et Gummadi, 2017 ; Spyratos et al., 2019). Les données de la plateforme publicitaire de Facebook, par exemple, peuvent livrer des informations sur un certain nombre de caractéristiques des utilisateurs que ces derniers ont communiquées euxmêmes, comme leur âge, leur sexe, leur « pays d’origine » et leur pays de résidence actuelle, leur parcours éducatif, leur secteur professionnel et leurs centres d’intérêt personnels. Début 2018, Spyratos et al. ont pu mesurer avec précision l’augmentation du nombre de migrants vénézuéliens (nombre mensuel d’utilisateurs actifs classifiés comme « expats ») par Facebook en Espagne, tendance confirmée par les statistiques officielles espagnoles.
En outre, le contenu des réseaux sociaux peut aussi être utilisé pour analyser le sentiment du public envers les migrants et les réfugiés, et la manière dont les opinions exprimées sur les réseaux sociaux peuvent devenir polarisées (Natale, 2017 ; UN Global Pulse et HCR, 2017). -
Les connexions répétées au même site Web et les adresses IP liées à l’envoi de courriers électroniques ont été utilisées pour estimer les schémas de la mobilité internationale et la probabilité que les utilisateurs se rendent dans un autre pays (Zagheni and Weber, 2012 ; State et. al., 2013). Les informations sur le sexe et l’âge que les utilisateurs ont communiquées euxmêmes ont aussi permis d’estimer les taux de migration en fonction du sexe et de la tranche d’âge. Les données relatives aux recherches en ligne peuvent également être utiles pour prévoir les migrations (forcées), comme il ressort des projets qui comparent les données de Google Trends avec le nombre d’arrivées de demandeurs d’asile et de migrants en Europe et en Australie (Connor, 2017 ; UN Global Pulse, 2014). De même, le Google Trends Index (GTI) – qui découle du moteur de recherche Google, utilisé par plus d’un milliard de personnes dans le monde entier – pour les termes de recherche relatifs à la migration peut être exploité pour mesurer les intentions de migration à partir de certains pays et prédire les flux d’émigration ultérieurs (Böhme, Gröger et Stöhr, 2018). Le système d’alerte précoce et de préparation du Bureau européen d’appui en matière d’asile utilise une combinaison de données de Google Trends et de sources de données traditionnelles pour détecter les changements de situation dans les pays d’origine et prévoir les demandes d’asile susceptibles d’être déposées dans l’UE.
-
L’intelligence artificielle (IA) et l’apprentissage automatique peuvent appuyer de maintes manières des projets et des applications qui cherchent à mieux comprendre les phénomènes relatifs à la migration. Par exemple, le Projet Jetson du HCR calcule, avec l’intelligence artificielle, un indice qui permet d’établir des prévisions à court terme des flux migratoires attendus en Somalie, en s’appuyant sur des variables clés telles que les prix sur le marché des produits de base, le niveau des précipitations et les conflits violents.
-
En outre, l’IA peut venir compléter et renforcer l’expertise humaine en interprétant l’imagerie satellite, afin d’identifier les déplacements internes ou les dommages causés à l’infrastructure après une catastrophe naturelle (Quinn et al., 2018). En Ouganda, le contenu des radios a été recueilli et analysé au moyen de l’apprentissage automatique en vue de comprendre l’attitude du public envers les réfugiés dans le pays (Quinn & Hidalgo-Sanchez, 2017).
Sources de données
Les sources de mégadonnées qui ont été utilisées jusqu’ici dans les études relatives la migration peuvent être regroupées en trois grandes catégories (Groupe mondial des migrations, 2017) :
-
Reposant sur les téléphones mobiles – p. ex. les relevés d’appels téléphoniques ou les transferts d’argent par téléphone mobile.
-
Reposant sur Internet – p. ex. les réseaux sociaux ou l’utilisation de moteurs de recherche.
-
Reposant sur des capteurs – p. ex. les données d’observation de la Terre (imagerie satellite).
L’infographie ci-dessous montre les différents types de sources.
Back to topPoints forts et limites des données
L’utilisation de nouvelles sources de données pour l’analyse des aspects liés à la migration présente l’avantage de pouvoir combler certaines des lacunes des sources de données et des méthodes traditionnelles. Même si l’on reconnaît les progrès accomplis par les gouvernements nationaux et la communauté internationale en matière de statistiques migratoires, les sources de données traditionnelles comportent néanmoins des limites intrinsèques : les recensements de population nationaux sont coûteux et peu fréquents, il peut être difficile de constituer des échantillons de migrants dans les enquêtes auprès des ménages, et ces derniers peuvent ne pas être tous comptabilisés dans les relevés administratifs s’ils ne peuvent avoir accès aux services dans le pays d’accueil. La disponibilité accrue de relevés numériques est l’occasion de combler certaines lacunes de connaissances sur la migration et la mobilité, en particulier compte tenu de leur degré d’actualité, de la fréquence à laquelle les informations peuvent être actualisées, de l’étendue de leur couverture (tous les utilisateurs de dispositifs mobiles et de plateformes Internet) et du niveau de détail qu’ils peuvent fournir.
Les mégadonnées peuvent être particulièrement utiles pour étudier les schémas de la migration temporaire ou circulaire, qui sont difficiles à mesurer avec les sources et les méthodes traditionnelles, ou pour anticiper les tendances migratoires. Elles peuvent aussi contribuer à assurer un suivi plus actualisé de l’opinion publique ou du discours médiatique sur la migration, par rapport aux enquêtes d’opinion publique par exemple. Par ailleurs, ces données sont générées sans coût supplémentaire et peuvent être obtenues pour un coût inférieur à celui des sources de données traditionnelles – en fonction de la disposition des titulaires de données à communiquer les données les concernant ou les informations qu’elles peuvent générer. La combinaison des informations qui peuvent être extraites des sources de données traditionnelles et novatrices peut fournir des éléments factuels concernant des aspects de la migration sur lesquels nous n’avons actuellement que des connaissances limitées, comme les perspectives d’intégration des migrants récemment arrivés dans un pays, les formes de migration fluides qui ne relèvent pas de la définition des migrants temporaires ou permanents des Nations Unies, ou les mouvements migratoires futurs.
Les possibilités qu’offrent les mégadonnées s’accompagnent de défis importants :
Questions éthiques et de respect de la vie privée : L’utilisation de données générées automatiquement par des personnes, souvent sans leur consentement éclairé, pose des problèmes éthiques et de confidentialité, ainsi que des problèmes de libertés civiles liés au risque de voir ces données utilisées à des fins de surveillance, risques particulièrement sérieux dans les contextes de migration irrégulière et de déplacement forcé. Des cadres législatifs et réglementaires adaptés doivent être créés pour préserver la confidentialité des informations et assurer l’utilisation éthique des données. En 2019, l’UNESCO s’est engagée dans un processus de deux ans pour élaborer un instrument normatif mondial sur l’éthique de l’intelligence artificielle. En outre, l’Agence des droits fondamentaux de l’UE (FRA) travaille à un projet intitulé « Intelligence artificielle, mégadonnées et droits fondamentaux » qui évalue les avantages et les inconvénients de l’utilisation de l’intelligence artificielle, de l’apprentissage automatique et des mégadonnées à des fins économiques et de politique publique au regard des droits de l’homme. Ce projet vise à fournir des principes directeurs et des recommandations en matière de respect des droits de l’homme concernant l’utilisation de l’intelligence artificielle à des fins politiques. L’OIM a été l’une des premières organisations internationales à adopter ses propres Principes relatifs à la protection des données et est affiliée au Groupe international sur la responsabilité en matière de données (IDRG), réseau mondial d’experts et d’organisations qui travaillent sur les principes et les normes nécessaires pour guider la révolution des données dans le contexte de l’action humanitaire et du développement durable. L’OIM a également soutenu le programme signal sur la sécurité humaine et la technologie de la Harvard Humanitarian Initiative, qui a produit des obligations éthiques fondamentales pour les activités d’information dans les contextes humanitaires.
Les mégadonnées sont intrinsèquement biaisées : Les utilisateurs des réseaux sociaux ou des téléphones mobiles ne sont pas nécessairement représentatifs de la population dans son ensemble. Plus précisément, les différences dans l’accès à Internet ou l’utilisation des appareils mobiles et des réseaux sociaux en fonction du niveau de développement économique, du sexe, de l’âge et du fait que l’utilisateur vive dans une zone urbaine ou rurale restent importantes. Les recherches se poursuivent pour tenter de résoudre les problèmes méthodologiques associés à ce biais (« auto-sélection ») et les résultats obtenus jusqu’ici semblent prometteurs (Spyratos et al., 2018 ; Zagheni, Weber et Gummadi, 2017 ; Hughes et al., 2016). Il est utile de comprendre l’erreur de mesure inhérente aux sources de mégadonnées pour accroître la capacité prédictive des modèles fondés sur ces sources, et faciliter une utilisation sensée des mégadonnées pour les prises de décision.
Problèmes techniques, analytiques et juridiques : Certains des problèmes sont dus aux difficultés d’accès aux données – détenues par des acteurs privés ou étatiques – ou à leur utilisation à des fins de recherche ; au caractère inapproprié des infrastructures, de la gestion des données et des systèmes de sécurité ; et aux difficultés méthodologiques rencontrées pour extraire du sens à partir de volumes de données considérables, complexes et « bruitées ». L’on mentionnera aussi des problèmes de continuité des données, compte tenu de la rapidité de l’évolution et de l’innovation technologiques, et les difficultés d’obtention d’une image globale pouvant être utilisée par les sources de mégadonnées ou les méthodes novatrices pour livrer des informations utiles pour les politiques, à cause de la prolifération des applications pilotes et de l’absence de services systématiques dans ce domaine. À cet égard, l’élaboration de partenariats public-privé innovants pour l’échange de données et les collaborations, comme les « plateformes communes de données »
(Verhulst, 2015) doivent être encouragées pour que des progrès soient accomplis dans ce domaine.
Afin de chercher concrètement des moyens d’obtenir de nouvelles sources de données pour l’analyse de la migration et l’élaboration de politiques, le 25 juin 2018, le Centre mondial d’analyse des données sur la migration (CMADM) de l’OIM et le Centre de connaissances en matière de migration et de démographie de la Commission européenne ont lancé la Big Data for Migration Alliance (BD4M). Alors qu’il existe une série d’initiatives axées sur l’innovation dans les données aux fins du développement durable au niveau des Nations Unies et de l’UE, comme UN Global Pulse, le UN Data Innovation Lab et le UN Global Working Group (GWG) on Big Data for Official Statistics, il n’existait encore aucune unité spécialement chargée d’exploiter les nouvelles sources de données dans le domaine de la migration et de la mobilité humaine – d’où l’idée de créer une alliance spéciale sur le sujet.
La BD4M est un réseau d’individus et d’organisations de divers secteurs visant à a) explorer le potentiel qu’offrent les nouvelles sources de données et la combinaison des méthodologies traditionnelles et novatrices pour l’analyse de la migration et sa pertinence pour la définition de politiques ; b) garantir l’utilisation éthique des données et la protection de la confidentialité ; c) promouvoir et faciliter de nouvelles formes de partenariat entre les communautés économique, politique et scientifique ; et d) soutenir l’apprentissage par les pairs, y compris en facilitant l’échange de bonnes pratiques et en renforçant les capacités d’innovation en matière de données migratoires. Les plans prévoyant la création de l’Alliance ont été annoncés à la suite de l’atelier d’experts intitulé Big Data and alternative data sources on migration: From case-studies to policy support, conjointement organisé par le Centre de connaissances en matière de migration et de démographie et le CMADM à Ispra, le 30 novembre 2017. Vous trouverez plus d’informations sur la BD4M sur la plateforme de la BD4M, hébergée par le The Governance Lab (GovLab), à la Tandon School of Engineering de la New York University.
Bengtsson, L. et al.
2011 Improved Response to Disasters and Outbreaks by Tracking
Population Movements with Mobile Phone Network Data: A Post-
Earthquake Geospatial Study in Haiti.
Blumenstock, J., Eagle, N. and Fafchamps, M.
2013 Motives for Mobile Phone-Based Giving: Evidence in the
Aftermath of Natural Disasters
Böhme, J., Gröger, A., and Stöhr, T.
2018 Searching for a better life: Predicting international migration with
Campo, S. et al.
2018 Signal Code: Ethical Obligations for Humanitarian Information Activities
Data-Pop Alliance
2017 Big Data and Mobility: Migration and Transportation
European Union Agency for Fundamental Rights (EU FRA)
2018 Artificial Intelligence, Big Data and Fundamental Rights
Flowminder
2017 Mobile Phone Data to Understand Climate Change and
Migration Patterns in Bangladesh
Global Migration Group
2017 Handbook for Improving the Production and Use of Migration
Data for Development (Chapter 1c Innovative data sources (mobile
phones, social media)).
Hilbert, M.
2014 Big Data for Development: A Review of Promises and Challenges
Hughes, C. et al.
2016 Inferring Migrations, traditional methods and new approaches
based on mobile phone, social media, and other big data.
Independent Expert Advisory Group on a Data Revolution for Sustainable Development
2014 A World That Counts: Mobilizing the Data Revolution for
Laczko, F. and Rango
2014 Can Big Data Help Us Achieve a “Migration Data Revolution”?
State, B. et al.
2014 Migration of Professionals to the US: Evidence from LinkedIn Data
Spyratos, S. et al.
2019 Quantifying international human mobility patterns using Facebook Network data
State, B. et al.
2014 Migration of Professionals to the US: Evidence from LinkedIn Data
Taylor, L.
2016 The Ethics of Big Data as a Public Good
United Nations Global Pulse
2014 Estimating Migration Flows Using Online Search Data
2017 Social Media and Forced Displacement: Big Data Analytics &
2017 Using Vessel Data to Study Rescue Patterns in the
Zagheni, E., Kiran, V.R. and State, B.
2014 Inferring International and Internal Migration Patterns from
Zagheni, E. and Weber, I.
2012 You Are Where You E-mail: Using E-mail Data to Estimate
Zagheni, E., Weber, I., and Gummadi, K.
2017 Leveraging Facebook’s Advertising Platform to Monitor Stocks