S2-Épisode 1 : Les données synthétiques : vraies ou fausses?

20 janvier 2022

Les nouvelles technologies d’intelligence artificielle permettent désormais de créer des renseignements personnels faux qui semblent authentiques, tout en étant assez différents pour assurer la protection de la vie privée. Dans cet épisode, la commissaire Kosseim discute avec Khaled El Emam, Ph. D., d’ensembles de données synthétiques générés à partir de données authentiques sur des patients, qui peuvent servir à mener d’importantes recherches en matière de santé tout en minimisant les risques pour la vie privée.

Khaled El Emam, Ph. D. est titulaire de la Chaire de recherche du Canada en intelligence artificielle médicale et professeur à la faculté de médecine de l’Université d’Ottawa. Il est cofondateur de Replica Analytics.

Élaboration de technologies d’amélioration de la protection de la vie privée aux fins de l’utilisation de données sur la santé pour la recherche [3:46]
Que sont les données synthétiques? [5:36]
Versions anonymes d’ensembles de données cliniques réelles [8:36]
Mise à l’épreuve de données synthétiques pour déterminer les risques pour la vie privée [9:02]
Exemples d’utilisations concrètes au Canada [10:06]
Attaques de désanonymisation et perte de confiance dans les méthodes traditionnelles [12:31]
Comparaison des propriétés statistiques des données synthétiques à celles des données réelles [14:15]
Les données synthétiques sont-elles réellement comme les données réelles? [14:21]
Comment générer des données synthétiques au moyen de technologies d’intelligence artificielle [15:05]
L’accélération prévue du recours aux données synthétiques à des fins de recherche justifie l’adoption d’un cadre réglementaire [16:47]
Réduction de l’incertitude pour alimenter l’innovation [19:30]
Nécessité d’adopter des règles claires concernant le consentement et les seuils pour les données identificatoires et non identificatoires [23:13]

Ressources

The Fourth Industrial Revolution: What it means, how to respond (article de Klaus Schwab sur la quatrième révolution industrielle)
Even better than the real thing: Simulated, anonymized data could be key to health-care innovations (projet de recherche de l’Université de l’Alberta sur les données simulées et anonymisées, clés des innovations en soins de santé)
Top 10 strategic predictions for 2022 and beyond (document de Gartner énumérant 10 prévisions stratégiques pour 2022 et au-delà)
La confiance dans la santé numérique : priorités stratégiques du CIPVP – 2021-2025 (plan stratégique du CIPVP)
(observations du CIPVP, juin 2021)
(document d’orientation du CIPVP sur la désanonymisation des données structurées)

Si vous avez aimé cet épisode, laissez-nous une note ou un commentaire.

Vous aimeriez en apprendre plus sur un sujet lié à l’accès à l’information ou à la protection de la vie privée? Vous aimeriez être invité à une émission? Envoyez-nous un gazouillis à @IPCinfoprivacy ou un courriel à [email protected].

Patricia Kosseim :

Bonjour, je suis Patricia Kosseim, commissaire à l’information et à la protection de la vie privée de l’Ontario, et vous écoutez L’info, ça compte, un balado sur la protection de la vie privée et l’accès à l’information. Nous engageons des conversations avec des personnes de tous horizons et écoutons des anecdotes concrètes sur les questions d’accès et de protection de la vie privée qui les intéressent le plus.

Bonjour, chers auditeurs, et merci de nous écouter. Klaus Schwab, fondateur et président du Forum économique mondial, a déjà dit : « nous sommes sur le point de vivre une révolution technologique qui modifiera fondamentalement notre mode de vie, nos méthodes de travail et nos interactions entre nous. Cette transformation ne ressemblera à rien de ce que l’humanité a connu auparavant. » Eh bien, nous sommes maintenant dans ce qu’il a surnommé la quatrième révolution industrielle, une révolution fondée sur les transformations numériques du début des années 2000, avec l’introduction de choses comme l’intelligence artificielle, la robotique avancée et la connectivité intégrée qui brouillent littéralement les frontières entre nos mondes physique, numérique et biologique. Tout cela, bien sûr, est motivé par un océan de données générées par des personnes, des organisations, des entreprises et des machines, rendues possibles grâce à une imposante puissance de stockage et de traitement.

Et bien que nous puissions nous sentir complètement submergés par un volume de données supérieur à notre capacité de les gérer, nous disposons parfois de la technologie, comme l’IA et l’apprentissage automatique, pour nous aider à éliminer tout le flafla et à donner un sens à tout cela. Nous avons maintenant des moyens d’obtenir des renseignements utiles et de prendre des décisions fondées sur les données pour résoudre certains des problèmes les plus urgents de la société dans des domaines tels que la santé, l’éducation et l’environnement, ainsi que des avantages sociétaux plus larges. Certains parlent ainsi de « données pour le bien ».

Alors que les coûts des soins continuent d’augmenter, et que les pressions sur le système de santé continuent de s’accroître, aggravées par cette pandémie implacable et sans précédent, les décideurs doivent faire des choix difficiles sur la meilleure façon d’utiliser les ressources limitées disponibles. Certains croient que la solution se trouve dans l’analyse et la compréhension des données sur la santé, combinées à d’autres données sociodémographiques et économiques pour nous aider à obtenir une compréhension et un portrait plus complets des conditions médicales, à tirer parti des innovations pour développer de nouveaux traitements, et à gérer les ressources d’une manière qui réduit les coûts et améliore la qualité de vie dans son ensemble. Or, comment pouvons-nous élargir l’accès aux données utiles sans compromettre la vie privée des personnes? Y a-t-il un moyen de créer un substitut pour les données réelles qui peuvent fournir des résultats similaires? Un moyen de reproduire les données, ou au moins les modèles statistiques, tout en préservant l’anonymat des personnes? Eh bien, il s’avère que ce moyen existe. C’est ce qu’on appelle les données synthétiques. Et c’est le sujet de cet épisode.

Mon invité aujourd’hui est M. Khaled El Emam. M. El Emam est ingénieur en électricité et en électronique de formation. Il est actuellement titulaire de la Chaire de recherche du Canada en intelligence artificielle médicale à l’Université d’Ottawa. Il est le PDG de Replica Analytics, une entreprise qui développe un logiciel de génération de données synthétiques qui protègent la vie privée des personnes tout en maintenant les propriétés statistiques des données réelles. Khaled, bienvenue à notre émission.

Khaled El Emam :

Merci beaucoup de m’avoir invité.

PK :

Je vous connais depuis de nombreuses années et je sais que vous avez consacré presque toute votre carrière au développement de technologies améliorant la protection de la vie privée. En outre, vous avez fondé quelques jeunes entreprises prospères qui offrent ce genre de services. Qu’est-ce qui vous a conduit à la recherche et au développement de nouvelles techniques et approches pour anonymiser les données?

KE :

Nous pouvons revenir aux débuts. Je travaillais en recherche en santé lorsque j’ai commencé à travailler sur ce sujet. L’accès aux données pour la recherche en santé a donc été au cœur de la genèse de mes travaux. De nombreuses innovations pour le développement de médicaments et la compréhension de la progression de maladies reposent sur des données et sur l’analyse des données déjà recueillies. Il s’agit de données recueillies dans les cliniques, dans les hôpitaux, etc. L’accès à ces données a toujours été très difficile en raison de problèmes de confidentialité, non pas parce que la réglementation le rend difficile, mais simplement parce que l’interprétation de cette réglementation est parfois trop conservatrice et que sa mise en œuvre nécessite une technologie de pointe. J’ai donc commencé à travailler sur le développement de certaines de ces technologies qui permettraient d’accéder aux données sur la santé, de soutenir la recherche, de soutenir la découverte de médicaments, les événements indésirables liés à l’utilisation de médicaments ou de vaccins, etc., et de rendre ces données accessibles et disponibles aux chercheurs aussi efficacement que possible, mais aussi de maintenir la qualité de ces données.

Les technologies dont il s’agit ici appartiennent à ce qu’on appelle la catégorie des technologies de renforcement de la vie privée. Concrètement, ces technologies permettent de créer des versions anonymes de données réelles. Vous prenez donc un ensemble de données réelles, un ensemble de données cliniques réelles, et vous créez une version anonyme qui n’est pas liée aux personnes. Mes premiers pas dans ce paysage ont été de développer une sorte de technologie d’anonymisation fondée sur les risques. Au fil du temps, nous nous sommes améliorés et avons mis au point des méthodes plus sophistiquées, dont nous parlerons plus tard.

PK :

Les données synthétiques sont l’une d’elles. J’aimerais vous demander si vous pouvez expliquer, tout d’abord, ce qu’est une donnée synthétique et donner quelques exemples concrets de son utilisation à nos auditeurs?

KE :

Oui, bien sûr. Les données synthétiques sont essentiellement de fausses données. Je suis sûr que beaucoup de gens ont vu des hypertrucages, qui sont les fausses images qui semblent très réalistes. Il s’agit d’images générées à partir de modèles d’IA. Donc, en somme, vous prenez une grande banque d’images de vraies personnes, puis vous formez des modèles d’IA à comprendre à quoi ressemblent de vraies personnes, quelles sont les caractéristiques de vrais visages, etc. Puis, une fois que vous avez formé ces modèles d’IA, vous pouvez les utiliser pour générer de nouvelles images, de nouveaux visages. Maintenant, la technologie a tellement progressé que ces nouvelles images, ces hypertrucages, semblent vraiment très réelles.

Prenons un exemple de base de données sur la santé maternelle et infantile. Il s’agit du type de données recueillies pendant la grossesse et après la naissance d’un bébé. Beaucoup de renseignements peuvent être recueillis sur la santé de la mère, le tabagisme, l’âge gestationnel, le poids à la naissance et la santé générale du nourrisson. Et donc, si vous prenez cet ensemble de données et en créez un dérivé synthétique, vous allez maintenir les mêmes proportions dans les données synthétiques; les femmes qui fument et ne fument pas, par exemple, la proportion d’enfants de sexe masculin et féminin, et les distributions de l’âge gestationnel et du poids à la naissance. Toutes ces caractéristiques sont donc conservées dans l’ensemble de données. Et imaginez que vous répétez ce processus avec les centaines d’attributs différents qui se trouvent peut-être dans cette base de données. Mais il n’y a pas que ces caractéristiques individuelles. De plus, les relations dans les données sont maintenues dans les schémas de données. Et il peut y avoir beaucoup, beaucoup de relations entre ces centaines d’attributs. Par exemple, s’il existe une relation entre le tabagisme et le poids à la naissance dans les données réelles, cette relation serait également maintenue dans ces données synthétiques.

Aucun fichier de données synthétiques n’aura ou ne pourrait avoir exactement les mêmes valeurs sur tous les attributs qu’un fichier de données réelles, mais par exemple, ce schéma entre le tabagisme et le poids à la naissance serait toujours maintenu, et ce, dans tous les fichiers. Vous tireriez donc les mêmes conclusions sur cette relation en analysant ou en examinant les données synthétiques que si vous aviez les données originales. Donc, au niveau individuel, les valeurs ne sont pas les mêmes, mais les modèles seront les mêmes dans un agrégat de toutes ces valeurs sur les naissances de cet ensemble de données.

PK :

Si j’étais une femme dans votre étude dans l’ensemble de données original, par exemple, et que vous reproduisiez les valeurs dans une donnée synthétique, vous auriez des attributs généraux qui se ressembleraient, mais aucun fichier individuel dans les données synthétiques ne me ressemblerait exactement avec tous les mêmes attributs et traits qui composent qui j’étais ou qui je suis dans l’ensemble de données original.

KE :

Exactement. Mais on peut également mettre ceci à l’épreuve. Il existe des moyens d’évaluer les données synthétiques et de déterminer les risques pour la vie privée liés à ces données synthétiques. Alors, dans quelle mesure les données synthétiques reproduisent-elles exactement les schémas des données réelles ou des schémas concernant des personnes réelles? On peut le déterminer. Et si le risque est élevé, on peut revenir en arrière et refaire les données pour obtenir un nouvel ensemble de données synthétiques qui réduit le risque. Il existe donc des moyens d’évaluer ces risques. Vous n’avez pas à prendre ces données à leur valeur nominale. Vous pouvez créer ces données, les évaluer et vous assurer que ces risques sont faibles, car il ne s’agit pas de données réelles. Elles sont générées à partir de ces modèles d’IA, et ils ont beaucoup de caractéristiques de protection de la vie privée. Nous atteignons donc notre objectif de créer des renseignements anonymes, mais qui demeurent très utiles, car les schémas sont maintenus. Il n’y a pas de données, ce sont des données réalistes. C’est ce que sont les données synthétiques.

Pour ce qui est de leur utilisation, il y a quelques exemples publics dont je peux parler. L’un d’eux est un projet que nous avons effectué en Alberta avec l’Université de l’Alberta et les cités de la santé à l’Université et à Edmonton, où nous avons pris des ensembles de données sur le système de santé. Nous voulions mettre ce type de données à la disposition des chercheurs de l’université et nous voulions voir si les données synthétiques pouvaient résoudre le problème. Et elles l’ont fait. Nous avons créé des versions synthétiques d’ensembles de données assez complexes sur le système de santé. Puis, lorsque les chercheurs de l’Université de l’Alberta ont analysé les données, ils ont obtenu les mêmes résultats avec les données synthétiques qu’avec les données originales.

Elles peuvent donc très bien fonctionner dans la pratique. Statistique Canada a utilisé des données synthétiques pour soutenir des marathons de programmation, par exemple. L’Institut canadien d’information sur la santé a également fait une présentation récemment sur son intérêt pour l’utilisation de données synthétiques pour… Ils détiennent beaucoup de données sur la santé. Donc, les données synthétiques comme un moyen de permettre l’accès à certains de leurs fonds de données. La RAMQ et le Québec ont également cherché et exploré les possibilités d’utilisation de données synthétiques pour permettre l’accès et la mise en commun des données. Il existe donc diverses initiatives à travers le pays qui utilisent des données synthétiques pour résoudre le problème d’accès aux données.

Un autre cas d’utilisation important, pour revenir à la santé, concerne les maladies rares. Les maladies rares comme leur nom l’indique sont rares. Vous n’avez donc pas assez de données pour l’analyse. Ainsi, les techniques de génération de données synthétiques peuvent créer des patients virtuels. Encore une fois, vous entraînez ces modèles d’IA à apprendre les propriétés et les schémas des données de ces patients. Puis, une fois que vous avez appris ces schémas à vos modèles, vous pouvez ensuite créer ou synthétiser des patients virtuels, et vous aurez plus de données à utiliser pour l’analyse et la recherche pour découvrir de nouveaux schémas ou tester des hypothèses avec ces données. Je dirais que ce sont quelques-uns des principaux cas d’utilisation aujourd’hui, qui ont émergé autour des applications des techniques de génération de données synthétiques.

PK :

Alors, pourquoi passer à l’utilisation de données synthétiques au lieu d’utiliser des données réelles dépersonnalisées? Quels sont certains des avantages des données synthétiques?

KE :

Les méthodes de dépersonnalisation qui ont été utilisées depuis environ 10 à 20 ans ont historiquement très bien fonctionné, mais dans la pratique, il y a aussi eu ces attaques de repersonnalisation. Et de ce fait, le discours autour des méthodes traditionnelles de dépersonnalisation est devenu plus négatif au fil du temps, ce qui a entraîné une érosion de la confiance, une érosion de la confiance des régulateurs, et une érosion de la confiance du public. C’est un défi que nous devons relever.

Par ailleurs, les méthodes traditionnelles de dépersonnalisation nécessitent pas mal d’expertise et de compétences, et ces compétences sont assez difficiles à trouver. Elles nécessitent beaucoup de formation et beaucoup de connaissances techniques pour être bien utilisées. Ainsi, ces deux défis, le discours négatif et le manque de compétences ont compliqué l’utilisation et la mise en commun des ensembles de données par les organisations, ainsi que la véritable pleine utilisation de ces ensembles de données. Nous avions besoin de quelque chose de nouveau.

Les données synthétiques permettent donc de résoudre certains de ces problèmes. Elles ne nécessitent pas autant de compétences, car il s’agit d’un processus largement automatisé. C’est juste un avantage très pratique. Puis, il n’y a pas de discours négatif autour de ça. Elles sont donc plus acceptées comme la voie à suivre pour permettre la mise en commun des données. Les résultats sont encourageants jusqu’à présent en ce sens qu’elles protègent la vie privée et sont bien utiles, tout en veillant à ce que les risques pour la vie privée soient assez faibles. C’est pourquoi les données synthétiques sont attrayantes, du moins aujourd’hui, et selon moi, elles sont l’avenir de la mise en commun de données.

PK :

Dans quelle mesure les données synthétiques se comparent-elles à la réalité en termes de propriétés statistiques?

KE :

Ce ne sera pas exactement comme de vraies données, parce que si c’est exactement la même chose que de vraies données, alors vous répliquez ou copiez essentiellement ces données réelles. Il y aura donc toujours des différences et vous devriez toujours vous attendre à voir ces différences. L’objectif, cependant, est que les données synthétiques reprennent les schémas des données originales, de sorte que l’analyse qui est faite avec les données synthétiques aboutisse aux mêmes conclusions que votre analyse des données réelles. Et jusqu’à maintenant, les preuves ont été encourageantes sur ce front.

PK :

Pouvez-vous nous expliquer en termes simples, pour nos auditeurs les moins familiers avec ces technologies, comment fabriquez-vous des données synthétiques exactement?

KE :

On utilise des techniques d’IA et d’intelligence artificielle assez largement définies, et on commence avec un véritable ensemble de données. Prenons donc un exemple concret. Disons qu’il s’agit d’une base de données d’un hôpital, d’un ensemble de données hospitalières dont vous souhaitez créer une version synthétique. Vous prenez donc l’ensemble de données de l’hôpital et vous formez un modèle d’IA à l’aide de cet ensemble de données. Une fois le modèle formé, vous faites essentiellement en sorte qu’il génère de nouvelles données fondées sur tous les schémas qu’il a appris. Ces nouvelles données ressembleront aux données d’origine, car elles suivent les mêmes schémas que ceux qui ont été appris par le modèle d’IA. Cela fonctionne donc très bien si le modèle d’IA est bon, et s’il a vraiment intégré les schémas des données d’origine. Et il y a eu suffisamment de progrès dans ce domaine pour que ces modèles d’IA soient devenus vraiment bons pour capturer des schémas très subtils et complexes dans les données originales, et cela s’améliore continuellement.

Ainsi, lorsque vous générez les données synthétiques de cette façon, elles ressemblent aux données réelles. Elles ont les mêmes schémas, la même distribution, les mêmes propriétés statistiques que les données d’origine. Lorsque vous les utilisez pour faire de l’analyse ou pour visualiser des modèles, vous verrez des schémas très similaires et tirerez les mêmes conclusions que si vous aviez les données d’origine.

PK :

C’est du matériel de pointe. Il s’agit d’un tout nouveau domaine d’étude et d’exploration. Dans quelle mesure sommes-nous prêts pour les données synthétiques d’un point de vue juridique et politique? Avons-nous les bons cadres en place pour permettre son utilisation aux bonnes fins que vous avez énoncées?

KE :

Permettez-moi de prendre un peu de recul et de parler simplement de l’adoption des données synthétiques en général. Nous constatons un intérêt accru, c’est sûr. Puis, certaines des grandes entreprises d’analyse comme Gartner et Forrester ont prédit que la plupart des données utilisées à des fins d’intelligence artificielle utiliseront des données synthétiques dans les prochaines années. Tout simplement parce que les données réelles sont difficiles d’accès, et que de grandes quantités de données sont nécessaires pour les applications modernes de l’IA. Leur prédiction est donc que les données synthétiques résoudront ce problème. Leurs prévisions pour l’adoption de données synthétiques montrent une courbe d’adoption assez énergique au cours des cinq prochaines années. Puis, Forrester a identifié la génération de données synthétiques comme l’une des meilleures technologies d’IA à l’avenir. Pour toutes ces raisons, je pense que la courbe d’adoption s’accélère assez rapidement.

Quant à ce qui devrait être fait, je veux dire, compte tenu de l’accélération et de l’adoption rapides de cette technologie, il y a un réel besoin de directives réglementaires. Si, par exemple, les données synthétiques doivent être traitées de la même manière que les données anonymisées ou personnalisées traditionnelles, ou si elles doivent être traitées différemment parce qu’il ne s’agit pas de données réelles. Elles proviennent de modèles et ne sont pas dérivées directement de données réelles. Il y a donc quelques facteurs à prendre en compte, et il nous faudrait des directives concrètes sur la façon dont les données synthétiques doivent être traitées. Il y a maintenant un certain mouvement pour réglementer les données anonymisées dans une certaine mesure. Les données synthétiques doivent-elles être réglementées, ou parce qu’il ne s’agit pas de données réelles, doivent-elles être traitées différemment? Ce sont les questions qui se posent, et il sera très bénéfique de soutenir l’adoption de données synthétiques et de s’assurer qu’elles sont utilisées de manière responsable, et que les utilisateurs et les fournisseurs de technologies pour les données synthétiques mettent en place les bons contrôles et les bons mécanismes pour gérer les risques. Des directives réglementaires seraient très utiles à ce stade. C’est le moment d’intervenir et de faire la différence dans la trajectoire d’évolution de cette technologie.

PK :

En fait, c’est une bonne introduction pour ma prochaine question, qui est de savoir comment un bureau comme le mien ou d’autres régulateurs de la protection des données peuvent aider à faire avancer le débat et la discussion sur des technologies comme celle-ci, pour aider à résoudre certains des défis de dépersonnalisation que nous avons vus et les promesses qu’il contient pour de nombreuses utilisations bénéfiques des données pour société?

KE :

Votre bureau a produit il y a quelques années des directives de dépersonnalisation qui formaient, je pense, un document fantastique, car elles fournissaient des directives très opérationnelles et concrètes sur la dépersonnalisation. Et je pense que quelque chose comme étendre de telles directives à la génération de données synthétiques ou à d’autres types de technologies améliorant la confidentialité serait très bénéfique. Je crois que l’incertitude crée la paralysie. Et chaque fois qu’il y a une incertitude quant à l’utilisation d’une technologie particulière ou à la manière dont une technologie particulière, surtout une nouvelle technologie, va être réglementée, de nombreuses organisations attendent de voir ce qui se passe. Elles sont moins disposées à prendre des risques en utilisant une nouvelle technologie lorsque le régime réglementaire n’est pas clair. Donc, l’augmentation de la clarté, et je pense qu’il est toujours bénéfique de fournir des conseils d’application aussi opérationnels que possible, c’est encore mieux pour réduire cette incertitude. Je pense que cela aurait une incidence énorme sur les utilisations responsables de la technologie, mais aussi pour soutenir leur adoption.

PK :

L’un de nos domaines prioritaires stratégiques que nous avons cernés et sur lequel nous travaillons activement est la confiance dans la santé numérique. Vous avez mentionné quelque chose de marquant sur l’importance de la confiance pour la possibilité d’utiliser et de mettre en commun des données à ces fins. À votre avis, comment les données synthétiques contribuent-elles à améliorer ou à renforcer la confiance dans les systèmes de santé numériques?

KE :

Plusieurs choses peuvent être faites. Les données synthétiques elles-mêmes, tout simplement parce qu’elles présentent un faible risque d’identification des personnes, sont un bon moyen de mettre en commun des données et de fournir un accès aux données d’une manière qui respecte la vie privée des personnes ou la vie privée des patients. Cela permet donc d’utiliser les données à des fins bénéfiques qui sont vraiment très importantes pour la société. Il reste encore de nombreux problèmes à résoudre, mais je pense que la pandémie a vraiment souligné l’importance de l’accès aux données. Les données synthétiques nous permettent donc de le faire d’une manière responsable et qui protège les droits des personnes.

Par contre, d’autre part, comment savons-nous que les données que nous produisons sont utilisées de manière acceptable, sans surprise? Vous n’allez pas construire des modèles à partir des données qui discrimineront certaines personnes, ou qui prendront des décisions effrayantes ou surprenantes sur les personnes. Je pense que c’est une question importante. C’est plus une question d’éthique où il doit y avoir une superposition éthique sur la façon dont les données, les données non identifiables, les données synthétiques sont utilisées et sur le type de décisions qui sont prises à partir de ces données. Je pense que ces deux choses contribueront grandement à établir cette confiance ou à assurer la confiance et la mise en commun de renseignements.

PK :

Comme vous le savez, il y a toute une série de réformes législatives en cours ici au Canada, parmi les provinces, à l’échelle internationale. Et cette nouvelle génération de lois sur la protection de la vie privée évolue à un rythme très rapide. Quels sont certains des amendements concrets qui, selon vous, seraient nécessaires dans une loi moderne sur la protection de la vie privée pour permettre à ces types de nouvelles technologies comme les données synthétiques de vraiment décoller et prendre leur envol pour résoudre certains des problèmes sociaux importants du monde?

KE :

Oui. Je pense qu’à un niveau élevé, il y a deux grands éléments. L’un est la réduction de l’incertitude, et l’autre est celui des incitatifs. Permettez-moi de donner quelques exemples. Deux grandes choses qui contribuent souvent à cette incertitude sont de savoir si un consentement individuel supplémentaire est nécessaire pour créer des données non identifiables telles que des données synthétiques. Certains règlements, tels que la Loi sur la santé de l’Ontario, sont très clairs en ce sens que le consentement n’est pas requis, mais d’autres lois à travers le pays sont ambiguës à ce sujet. Par conséquent, la communauté dans son ensemble, les organisations et les secteurs public et privé doivent déduire ce qu’ils doivent faire en ce qui concerne le consentement. Maintenant, un argument fort peut être avancé selon lequel les méthodes de création de données non identifiables afin que les données puissent être utilisées pour l’analyse et la recherche, etc., constituent une bonne mesure de protection de la vie privée.

Les données non identifiables sont meilleures pour les personnes. C’est un bon moyen de protéger leurs droits. Elles peuvent également permettre des utilisations bénéfiques des données. On peut donc faire valoir que le fait de créer des données non identifiables telles que des données synthétiques ne nécessite pas ou ne devrait pas nécessiter un consentement supplémentaire. Donc, en étant explicite à ce sujet, cela réduit l’incertitude et permet aux organisations d’appliquer des technologies modernes pour protéger les données, mais cela dépend également des incitatifs. Donc, si le consentement est nécessaire pour créer des données non identifiables, les organisations peuvent simplement obtenir le consentement pour toute analyse qu’elles souhaitent faire avec les données. Elles n’ont plus besoin de le synthétiser ou d’en créer des versions non identifiables. Ainsi, en mettant en place davantage d’étapes pour utiliser les données, nous décourageons leur utilisation de manière à protéger la vie privée. Donc, si je dois obtenir le consentement, je pourrais aussi bien obtenir le consentement pour toute analyse et utilisation que j’allais faire avec des données supplémentaires. Et je finis par utiliser des renseignements identifiables, ce qui protège moins le droit à la vie privée de la personne. C’est un exemple d’incertitude et d’incitatifs.

Autre exemple, lorsque vous créez des données non identifiables, les lois sur la confidentialité sont binaires dans le sens où elles traitent les données comme identifiables ou non identifiables. Or, dans la pratique, l’identifiabilité des données s’inscrit plutôt dans un spectre. Il y a donc ces seuils qui sont utilisés pour déterminer quand on passe de données personnelles à des données non personnelles. Une fois de plus, l’incertitude entourant les seuils acceptables a rendu difficile pour les organisations de savoir ce qu’elles devaient faire. Donc, être plus prescriptif ou fournir plus de clarté sur ce qui est considéré comme des seuils acceptables serait très utile, car cela réduit cette incertitude.

Plus les règles sont claires, plus elles deviennent faciles à suivre par les gens. Lorsque les règles sont inconnues, de nombreuses organisations ne feront rien parce que c’est l’option la moins risquée. Vous créez donc des facteurs dissuasifs pour l’application de technologies améliorant la confidentialité. Ce n’est pas l’idéal. Idéalement, vous voulez inciter les organisations à appliquer les meilleures technologies disponibles pour améliorer la confidentialité afin de protéger la vie privée des personnes, puis de leur permettre d’utiliser ces données de manière responsable. Je pense que la réduction de l’incertitude et la mise en place des bons incitatifs ou la suppression des mesures dissuasives sont deux types de gros titres que j’utiliserais pour caractériser beaucoup de choses qui, à mon avis, seraient très utiles.

L’autre chose à garder à l’esprit est… Je pense que c’est vraiment important parce que dans beaucoup de conversations, les gens parlent des utilisations des données du point de vue du risque. Il y a tous ces risques liés à l’utilisation des données, le risque que les données soient utilisées à mauvais escient, etc. Par contre, l’utilisation des données présente également de nombreux avantages. Nous devons également garder à l’esprit le côté bénéfice de l’équation selon laquelle l’utilisation des données peut être très bénéfique pour la société. Elles peuvent également avoir d’énormes avantages économiques. Pour les entreprises de l’Ontario, pour les organisations canadiennes… nous devons concurrencer le reste du monde. Il ne s’agit pas seulement de gérer les risques. Il s’agit de gérer les risques, mais aussi de tirer parti des avantages de l’utilisation de ces ensembles de données.

PK :

Très intéressant. Je vous remercie encore une fois, Khaled, d’avoir accepté mon invitation à L’Info, ça compte. Il s’agit en effet d’un sujet très complexe et vous nous avez vraiment aidés à le mettre en contexte pour nos auditeurs. Les possibilités offertes par les données synthétiques semblent prometteuses en tant que moyen de créer des ensembles de données utiles pour résoudre des problèmes urgents et obtenir des résultats concrets. N’hésitez pas à communiquer avec Khaled si vous souhaitez en savoir plus sur les données synthétiques. Si vous voulez en savoir plus sur les techniques de dépersonnalisation et d’autres technologies améliorant la confidentialité, vous pouvez visiter notre site Web à l’adresse ipc.on.ca. Vous pouvez également communiquer avec notre bureau pour obtenir de l’aide et des renseignements généraux sur les lois ontariennes en matière d’accès à l’information et de protection de la vie privée. Nous sommes arrivés à la fin d’un autre épisode de l’Info, ça compte. Merci de nous avoir écoutés, et à la prochaine fois.

C’était Patricia Kosseim, commissaire à l’information et à la protection de la vie privée de l’Ontario, et vous avez écouté L’info, ça compte. Si vous avez apprécié le balado, n’hésitez pas à formuler une évaluation ou un commentaire. Si vous souhaitez que nous abordions un sujet lié à l’accès à l’information ou à la protection de la vie privée dans un prochain épisode, n’hésitez pas à communiquer avec nous. Envoyez-nous un gazouillis à @IPCinfoprivacy ou un courriel à [email protected]. Merci de nous avoir écoutés et rejoignez-nous pour d’autres conversations sur les personnes, la protection de la vie privée et l’accès à l’information. Si ça compte pour vous, ça compte pour moi.

This post is also available in: Anglais

Plus de Balado L’info, ça compte

Notes de l'épisode

Élaboration de technologies d’amélioration de la protection de la vie privée aux fins de l’utilisation de données sur la santé pour la recherche [3:46]
Que sont les données synthétiques? [5:36]
Versions anonymes d’ensembles de données cliniques réelles [8:36]
Mise à l’épreuve de données synthétiques pour déterminer les risques pour la vie privée [9:02]
Exemples d’utilisations concrètes au Canada [10:06]
Attaques de désanonymisation et perte de confiance dans les méthodes traditionnelles [12:31]
Comparaison des propriétés statistiques des données synthétiques à celles des données réelles [14:15]
Les données synthétiques sont-elles réellement comme les données réelles? [14:21]
Comment générer des données synthétiques au moyen de technologies d’intelligence artificielle [15:05]
L’accélération prévue du recours aux données synthétiques à des fins de recherche justifie l’adoption d’un cadre réglementaire [16:47]
Réduction de l’incertitude pour alimenter l’innovation [19:30]
Nécessité d’adopter des règles claires concernant le consentement et les seuils pour les données identificatoires et non identificatoires [23:13]

Ressources

The Fourth Industrial Revolution: What it means, how to respond (article de Klaus Schwab sur la quatrième révolution industrielle)
Even better than the real thing: Simulated, anonymized data could be key to health-care innovations (projet de recherche de l’Université de l’Alberta sur les données simulées et anonymisées, clés des innovations en soins de santé)
Top 10 strategic predictions for 2022 and beyond (document de Gartner énumérant 10 prévisions stratégiques pour 2022 et au-delà)
La confiance dans la santé numérique : priorités stratégiques du CIPVP – 2021-2025 (plan stratégique du CIPVP)
Observations du CIPVP dans le cadre des consultations du gouvernement de l’Ontario sur le cadre de l’intelligence artificielle (IA) de confiance de l’Ontario (observations du CIPVP, juin 2021)
De-identification guidelines for structured data (document d’orientation du CIPVP sur la désanonymisation des données structurées)

L’Info, ça compte est un balado sur les gens, la protection de la vie privée et l’accès à l’information animé par Patricia Kosseim, commissaire à l’information et à la protection de la vie privée. Avec des invités de tous les milieux, nous parlons des questions qui les intéressent le plus sur la protection de la vie privée et l’accès à l’information. Si vous avez aimé cet épisode, laissez-nous une note ou un commentaire. Vous aimeriez en apprendre plus sur un sujet lié à l’accès à l’information ou à la protection de la vie privée? Vous aimeriez être invité à une émission? Envoyez-nous un gazouillis à @IPCinfoprivacy ou un courriel à [email protected].

Contact média

Demandes des médias et demandes d’entrevue. Pour que nous puissions vous répondre dans les plus brefs délais, veuillez nous fournir par courriel ou par téléphone des détails sur votre demande, p. ex., organisme, sujet et échéance.

Courriel: [email protected]

Téléphone: 416-326-3965

Contactez-nous

S2-Épisode 1 : Les données synthétiques : vraies ou fausses?

Contact média

Médias Sociaux

Cookie/Analytics/Tracking/Opt-in/Opt-out