Quelques définitions

Quel est le statut des différents jeux de données présentes au catalogue de RUDI ? Pour bien comprendre notre démarche nous pouvons en distinguer quatre :

Données ouvertes ou open data

Les données ouvertes sont des données qui sont mises à la disposition des utilisateurs potentiels,  généralement accessibles via un entrepôt de données sur Internet. Elles sont disponibles dans un format lisible. Elles sont sous licence ouverte, ce qui permet à quiconque d’utiliser les données ou de les partager à des fins non commerciales ou commerciales. (Source : Actualité informatique) 

L’open data concerne principalement les données publiques c’est à dire  produites par « une administration centrale de plus de 50 agents ; une personne morale de droit privé chargée d’une mission de service public qui emploie plus de 50 agents à temps plein  ou une collectivité territoriale de plus de 3 500 habitants et de plus de 50 agents. » Cette obligation de mise à disposition porte sur tous les documents administratifs  et base de données « dont la publication représente un intérêt économique, social, sanitaire ou environnemental. »
(Sources Etalab )

Mais l’open Data peut s’appliquer à « des informations en provenance de n’importe quelle source, sur n’importe quel sujet. Les entreprises, les universités, les ONG, les startups, les fondations caritatives, les communautés ou les individus peuvent également proposer des Open Data. Les Open Data doivent être utilisables par n’importe qui, peu importe quand, où, ou ce que la personne compte faire de ces données. » (source : lebigdata.fr )


Données restreintes

Dans notre catalogue Rudi, nous souhaitons partager des données publiques et ouvertes mais aussi des données privées, non régies par l’obligation d’open data, et qui devront faire l’objet de contrats spécifiques entre producteur et ré-utilisateur des données.

Nous les désignons comme « données restreintes » pour les distinguer des données ouvertes puisqu’elles sont soumises à des conditions particulières d’usages.
Ce sont, par exemple, des données dont la production et la gestion peuvent être couteuses et qui ont un fort potentiel économique : leur utilisation par un tiers pourrait donner lieu à des droits et redevances établis par le producteur.

Elles peuvent être aussi des données personnelles anonymisées, pour lesquelles les utilisateurs devront s’engager à respecter certains protocoles ou justifier des finalités des usages envisagés.

Des données soumises au droits d’auteur ou au secret industriel et commercial peuvent entre dans cette catégorie de « données restreintes » dès que le partage de ces données fait l’objet d’un accord bi latéral entre le producteur et le réutilisateur.

Les conditions d’engagement, édictées par les producteurs de données devront être validées par le consortium Rudi et être en conformité avec les normes et valeurs de Rudi, en particulier sur la transparence des échanges et  l’information de tous les acteurs concernés par ce partage de données.

Données personnelles

Pour Rudi, la définition des données personnelles ne saurait être distincte de la définition donnée par la Commission nationale informatique et liberté (CNIL) :

 » Une donnée personnelle est toute information se rapportant à une personne physique identifiée ou identifiable. Mais, parce qu’elles concernent des personnes, celles-ci doivent en conserver la maîtrise. Une personne physique peut être identifiée :

  • directement (exemple : nom et prénom) ;
  • indirectement (exemple : par un numéro de téléphone ou de plaque d’immatriculation, un identifiant tel que le numéro de sécurité sociale, une adresse postale ou courriel, mais aussi la voix ou l’image)

L’identification d’une personne physique peut être réalisée :

  • à partir d’une seule donnée (exemple : nom) ;
  • à partir du croisement d’un ensemble de données (exemple : une femme vivant à telle adresse, née tel jour et membre dans telle association) « 

Pour en savoir plus, visitez le site de la CNIL


Données anonymisées

Le traitement des données personnelles est très encadré au niveau européen par le RGPD (Règlement général de protection des données) et par la loi française Informatique et Libertés afin de protéger la vie privée des personnes, et fonder les activités numériques  des entreprises et des administrations sur un socle de confiance pour les utilisateurs finaux.

L’anonymisation des données  est un traitement particulier qui utilise un ensemble de techniques qui visent à rendre impossible, en pratique, toute identification de la personne et de manière irréversible.

L’anonymisation n’est pas une obligation inscrite dans le RGPD mais permet d’ apporter une solution de compromis entre le respect de la vie privée et l’accès à des informations utiles pour la mise en place de nouveaux
services individualisés ou collectifs (ex : aménagement des transports, analyse des consommations énergétiques)..

Lorsque les données sont correctement anonymisées la législation relative à la protection des données ne s’applique plus, car la diffusion ou la réutilisation des données anonymisées n’a pas d’impact sur la vie privée des personnes concernées.

La stratégie mise en place par Rusi sur l’anonymisation des données repose sur la définition, d’une part, d’un
cadre collaboratif sur les approches et les techniques d’anonymisation, et d’autre part d’une politique de suivi des techniques de protection et d’attaque (comme la réidentification des données anonymisées, par exemple). Ce dernier point est essentiel car nombreux exemples plus ou moins récents, ont montré que des approches considérées comme sûres se sont avérées faillibles.

Pour en savoir plus sur ce sujet voir le motion design