Ce document collaboratif vous permet de faire remonter les questions /verrous auxquel(le)s vous avez été confronté dans la rédaction collective de ce Plan de Gestion des Données. Nous allons utiliser au maximum vos remontées pour adapter au plus près de vos attentes la séance "retour sur les questions les plus fréquentes" qui suivra cet atelier (16H30 à 17H). Merci d'intégrer vos questions / verrous identifiés dans cette trame de Plan de Gestion des Données. Pour un projet comportant plusieurs modalités de données (par exemple questionnaires quanti + entretiens quali) comment renseigner dans un PGD unique ? Réponse : Dans un même PGD, on traite séparément chaque type de donnée. Il y a 2 solutions : soit on duplique les rubriques qui nécessitent une réponse spécifique à chaque type de données, soit on traite sous forme de liste les différents types de jeux de données. Questions générales sur Opidor Y a t-il un mécanisme de versionnage du PGD (ie. peut-on revenir à une version antérieure du document) ? Le remplissage du PGD nécessite des compétences juridiques (licences, droit de propriétés), des connaissances techniques de SI, flux... Comment un chercheur sur une discipline spécifique peut remplir le document avec l'ensemble de ces compétences qu'il ne maîtrise pas au départ ? Quel appui trouver ? Comment mettre en valeur les PGD ? à qui les diffuser ? à tout le labo, l'institut, publique ? La plus large diffusion permet de valoriser le document qui est central dans un projet. Un PGD peut faire parti des délivrables du projet. Un PGD peut être publié dans BMC Research Notes ou Research Ideas and Outcomes (RIO) journal. Des exemples de PGD sont sur le site datapartage https://www6.inra.fr/datapartage/Gerer/Rediger-un-plan-de-gestion/Exemples-de-plans Comment les stocker et les mettre à disposition dans le temps? Informations concernant le plan de gestion 1. Auteur du PGD (si différent du responsable du projet) : nom, email 2. Affiliation 3. Date de création du PGD comment écrire que c'est un "PGD 6 mois", qu'est-ce que cela veut dire ? écrit à D+6mois et projection sur la fin du projet, ou écrit à D=0 et projection sur les 6 mois ?? Réponses : ce n'est pas dans cette rubrique mais dans celle qui est en dessous que l'on répond à cette question. le PGD a 6 mois correspond à la version 1 du PGD dans un projet H2020 ou ANR. Quand on a un projet H2020 le PGD est un livrable au mois 6 du projet. 4. Version en cours : n°, date Ex : Version 1 du PGD du projet REQUIN, 17/06/2019 (version 1 = PGD à 6 mois) Quand change t on de numero de version ? Réponse: a chaque fois qu'on l'enrichit. Pourquoi ne pas faire du versioning automatique comme le propose Google doc ou GIT ? Informations sur le projet de recherche 5. Identifiant de l'appel à projet (call for proposal) Quelle différence entre 5 identifiant appel à projet et 7 nom du programme de recherche ? Réponse : Exemple : identifiant : ANR-008 (identifiant de l'appel à projet de la vague 8) nom du programme : Détection de gènes responsable de la maladie de Charcot 6. Financeur(s) du projet Pour les projets européens on pourra se reporter aux informations telles qu'elles apparaissent dans Cordis. Le répertoire CrossRef des financeurs peut être utilisé pour indiquer le libellé et l'identifiant DOI attribués à un financeur par CrossRef (exemple European Commission http://dx.doi.org/10.13039/501100000780 pour la Commission Européenne). 7. Nom du programme de recherche Pour les projets européens on pourra se reporter aux informations telles qu'elles apparaissent dans Cordis 8. Référence de la convention de financement On ne l'a que quand le projet est accepté! Réponse : OUI. On n'est pas obligé de répondre à toutes les questions. Sachant que le PGD est souvent demandé après l'acception du projet. On a un fichier (mail d'arbitrage favorable du projet). Est-ce qu'on peut le stocker qq part dans le PGD ? Réponse: Normalement le PGD est un document ; il n'est pas un espace de stockage (contrairement a votre entrepot institutionnel (ex: Dataverse), dans lequel vous pouvez stocker données et documents). 9. Acronyme du projet 10. Nom du projet de recherche Si le projet correspond à un financement lié à un appel à projet, nom du projet tel qu'il apparait dans la réponse à l'appel à projet. 11. Description succincte du projet de recherche 12. Institution leader du projet, coordinateur bénéficiaire (nom, pays) Nom de l'institution tel qu'il est connu par le financeur. On pourra se reporter à la base de données GRID Global Research Identifier Database ou pour la France au RNSR Répertoire National des Structures de Recherche 13. Autres partenaires (nom, pays, rôle de chacun des partenaires en dehors de l'institution leader) 14. Personne responsable du projet : nom, ID (ORCID ou autre) ID=identifiant? réponse : Il s'agit de l'identifiant du chercheur. https://coop-ist.cirad.fr/aide-a-la-publication/avant-de-publier/etre-auteur.e/utiliser-un-identifiant-chercheur/3-creez-votre-identifiant-orcid-id-dans-le-repertoire-orcid 15. Unité de rattachement du responsable du projet Suivre la note de service Inra 2016-13 sur la signature "monoligne" des publications ou la charte des publications de l'Alliance nationale pour les sciences de la vie et de la santé 16. Dates et durée du projet Présentation succincte des données du projet 17. Type de données, périmètre, échelle Types de données : Données expérimentales, données d’observation, données d’enquêtes, données textuelles, données génomiques, échantillons, images, données audiovisuelles, modèles... que recouvrent le périmètre? l'échelle? Supposons que l'on récupère des données sur les organismes marins en Méditerranée... le périmètre serait la mer Méditerranée de tel à tel pays, et l'échelle un certain type d'organisme, ex tout ce qui concerne le plancton mais pas plus gros ? Réponse: oui, je dirais que le périmetre est la zone géographique couverte; et l'echelle: couvre l'ampleur de l'échantillonage (ex: 700 especes couvertes dans le projet; ou l'ensemble dy phytoplancton, ... ou ca pourrait etre : toute la couche d'eau entre la surface et 12 000 m). Réponse : périmètre = périmètre thématique Réponse : Echelle = on se sait pas vous répondre... !(Echelle géographique ? Paysage, parcelle, micro ...) Est ce que l'on peut considérer le matériel biologique comme de la donnée ? Réponse: non. En revanche vous pouvez considerer ce materiel comme un élément clé lié a vos données: il est, dans certains cas, possible de déposer des échantillons dans des entrepôts et d'avoir un identifiant numerique. Réponse : Attention en revanche les données associés aux ressources génétiques doivent être conformes avec le protocole de Nagoya. 18. Origine (collecte de nouvelles données ; conversion / transformation de données ; partage / échange de données ; achat de données). Qu'est ce la conversion/transformation de données ? réponse possible : toute modification apportée aux données brutes (changement de format, ajout ou retrait d'une partie ou sous-partie...). Cette notion de transformation/conversion ne s'applique pas que aux données brutes (raw data) mais à toute donnée modifiée lors du cycle de vie de la donnée. A quoi correspond l'achat de données ? que voulez vous dire ? Avez-vous un exemple de cadre où l'on peut acheter des données ? Je n'ai pas d'exemple précis mais il est tout à fait possible d'acheter un jeu de données, moyennant un prix. Réponse : certaines entreprises vendent des données : dossiers clients, méteofrance, données satellitaires de grande précisions 19. Publications associées ceci correspond aux publis qui font référence à des données qui seront réutilisées dans le cas du projet, ou publi qui "expliquent" comment on acquière ces données ? Réponse: les publis associées sont les articles de recherche qui décrivent des résultats obtenus a partir des données ou un Data paper qui aurait été publié avec ces données. Description et organisation des données 20. Quels méthodes et outils sont utilisés pour acquérir et traiter les données ? Précisez les différents formats dans lesquels les données seront disponibles aux différentes phases de la recherche 21. Documentation associée aux données protocole d'obtention des données ? mais aussi questionnaire d’enquêtes, dictionnaire des variables, fichier "Read me" expliquant l'ensemble du processus On les télécharge / attache au PGD ? en annexes ? ou on les décrit ? Réponse: Non; On dit, dans le PGD, que ces documents sont disponibles et seront "attachés" aux jeux de données, lorsque ceux-ci seront déposés dans un entrepôt. Merci. Peut-on envisager de mettre un lien vers dataverse? Réponse : oui, s'il y a des jeux de données déposés dans le Dataverse; par exemple, si vous réutilisez dans un projet des données déjà collectées préalablement. Par contre, si l'objectif est de stocker des documents en attente, on peut les mettre sur un Alfresco ou Sharepoint. 22. Quels types de métadonnées seront produits pour accompagner les données ? Quels standards ou taxonomies seront utilisés pour décrire les données ? Quelle différence avec la question précédente 21 ? Réponse:La question 21 fait référence aux documents associés aux jeux de données; ici la question se refere au standard de métadonnées que vous allez utiliser pour décrire les données: exemples: la norme DDI pour des données d'enquetes, la norme INSPIRE pour des données geographiques, le standard EML pour les données en écologie ou Darwin Core, pour les données en biodiversité, .... Voici le lien vers 2 sites dans lesquels sont référencés des standards de métadonnées Des standards de métadonnées sont répertoriés sur différents sites web : Digital Curation Centre (DCC) directory : répertoire de standards par disciplines Research Data Alliance (RDA) directory: répertoire de standards par disciplines FAIRsharing : standards dans tous les domaines (a succédé à BioSharing en 2017, le domaine des sciences biologiques est plus développé). 23. Comment les métadonnées seront elles produites ? Il existe des outils pour produire ces métadonnées. => Difficile de répondre. Réponse: la réponse peut etre : "les métadonnées sont renseignées a la main par le collecteur de données sur le térrain; ou sur un note book electronique,... Ou bien, si vous etes dans une discipline où existe un outil générateur de métadonnées comme Morpho en biodiv ou environnement, il faut citer cet outil,..... mais il n'en existe pas beaucoup Réponse complémentaire : voir l'outil Geoflow pour générer facilement et collaborativement des métadonnées conformes aux standards (ISO 19115, EML) : https://github.com/eblondel/geoflow/ 24. Comment les fichiers de données sont-ils gérés et organisés au cours du projet : contrôle des versions, conventions de nommage des fichiers, organisation des fichiers… Séparer les données brutes des données traitées, des délivrables et des programmes de traitement. Définir des règles d’organisation et de nommage des fichiers de données.. Ne pas modifier les données brutes : toute modification doit entraîner un changement de nom des fichiers. S'agit-il de dire que l'on va faire des version 1, 2, 3 ...? si l'on conserve ou écrase les versions antérieures ? réponse : il s'agit de définir comment sont nommés les fichiers que vous avez générés (ex: nom de l'essai + date de collecte + initiale de l'auteur). Est ce qu'il y a des conventions de nommages qui ont été définies par les producteurs de données ? Le versionning des fichiers permet de gérer la traçabilité des modifications faites sur les données d'origine. En rêgle général, on garde toujours les données brutes car on peut avoir à revenir dessus. C'est celles qui sont partageables. Théoriquement, on n'écrase pas les versions antèrieures. 25. Quelle est la procédure de contrôle qualité des données ? joindre éventuellement le plan d’assurance qualité. Ex : Des procédures qualité ISO-9001 existent pour définir le protocole d'intégration des données. L'outillage d'intégration (ETL, SGBDR) garantit l'intégrité des données. Que signifie ETL ? => In computing, extract, transform, load (ETL) is the general procedure of copying data from one or more sources into a destination system which represents the data differently from the source(s) or in a different context than the source(s). Hors ISO 9001 (que nous n'avons pas), sur quel document peut-on s'appuyer pour générer un plan d'assurance qualité ? Droits de propriété intellectuelle 26. Qui détiendra les droits sur les données et les autres informations créées lors du projet ? Faire attention quand un partenaire privé amène des données dans le projet. propriété intellectuelle d'un stagiaire? d'un thésard? Réponse : Méfiance avec le stagiaire :) Non je plaisante mais il est préférable de prévoir ce que le stagiaire va développer pendant son stage, l'informer que les résultats générés par lui lui appartiennent et quil doit les céder par contrat à son institut d'accueil. Le thésard est un salarié comme les autres. Les règles qui s'appliquent sur les droits de propriété intellectuelle sont-elles internationales ou existe-t-il des spécificités suivant les pays partenaires (hors Europe) du projet ? Il y a effectivement des spécificités selon les pays mais globalement ce sont les mêmes règles qui s'appliquent en Europe. 27. Du matériel protégé par des droits spécifiques sera-t-il utilisé au cours du projet (ex : Echantillons humains, échantillons de plantes ou animaux provenant de pays tiers...) ? Dans ce cas, qui s'occupe des formalités à accomplir, obtient les autorisations d’utilisation et de diffusion éventuelle … Épic ou Epst, les règles sont-elles les mêmes en terme de propriété des données ou de mise à disposition ? Réponse : Oui ce sont les mêmes règles par contre comme vous l'avez bien noté ce matin il n'y a pas de "propriété" de données. Ben j’avais compris que les données n’appartiennent pas aux chercheurs certes, mais aux organismes oui?! Non? En fait le droit ne prévoit pas la propriété des données, les données sont de libre parcours mais on peut parler de détention de données. Après souvent les données issues des projets seront stockées dans des bases de données il me semble non ? La circulation du matériel ou de l échantillon ne relève pas de la gestion des données, non ? Réponse : je ne comprends pas la question :) La question n est pas très claire, on a l impression que l’on parle de la circulation des échantillons, alors qu’apparemment il s’agit des données, d’où la question... Confidentialité 28. Identification des jeux de données confidentielles Ex : Brevet en cours de dépôt, jeux de données issus d'un partenaire privé Dans le cas de données constituées à partir d'entretiens qualitatifs, faut-il demander aux personnes enquêtées une autorisation explicite de diffuser les textes des entretiens oui si les noms et prénoms apparaissent ? A contrario, si on considère que la personne interviewée ne va pas s'exprimer librement si elle sait que les données sont publiées librement, est-il possible de décider que les données des entretiens ne seront pas diffusées (confidentielles) même sans enjeu de brevet ? le point sur le brevet n'est pas clair (dans ce cas seules les méta données seraient diffusées?) Peut-on mettre en place une clause de confidentialité qui ne seraient pas justifiée par le dépôt d'un brevet, mais qui serait justifié par le fait que ouvrir les réponses au public va restreindre le parole des enquetés (qui par exemple n'expliciteront pas la totalités de leur motivation, mais uniquement les motivation qu'ils osent dire à tout le monde). Réponse : Bien sûr tout est possible, en fait par contrat on peut décider de ce que l'on veut Rendre public le contenu des entretiens peut modifier la qualité des réponses. Problème déontologique aussi : les verbatim des entretiens sont récoltés intuitu personae... Si je travaille avec des données personnelles est ce que je rentre dans ce cadre de données confidentielles si j'ai une levée d'anonymat ? Si il y a une vraie anonymisation on peut echapper aux regles du RGPD. Si je travaille dans le cadre d'un programme de sciences participatives, comment je peux gérer cet anonymat ? Qu'en est-il de données cliniques-patient ? Réponse : ce sont des données sensibles. Les données sensibles ne peuvent jamais être réutilisées sauf accord expres ecrit et préalable de la personne concernée Comment préserver l'anonymat si je diffuse des données avec un point GPS qui identifie le lieu de récolte de la donnée sur un terrain privé ? Réponse : c'est compliqué. En fait une coordonnée GPS est considérée comme une donnée personnelle puisqu'elle permet d'identifier la personne, c'est la même chose qu'une adresse 29. Quelles sont les mesures prises et les normes auxquelles il est nécessaire de se conformer pour garantir cette confidentialité ? Les règles de confidentialité doivent être écrites et diffusées auprès des utilisateurs. Ex : Consentement éclairé des participants, sécurité des serveurs (ISO 27001), chiffrement des documents, etc. Peux-t-on avoir des exemples de normes? 30. Le cas échéant, comment la confidentialité de données fournies par des personnes sera garantie lorsque les données seront partagées ou rendues disponibles pour une analyse de second niveau ? Ex : Anonymisation, pseudonymisation, signature d'un accord de confidentialité, etc. Voir NGUYEN, B. (2015). Techniques d’anonymisation. Statistique et Société, 2(4) Accès et partage des données à l'issue du projet 31. Y a-t-il une obligation de partage (ou à l’inverse une interdiction ou une restriction) Nécessité de définir périmètre de partage (intra et inter équipe, inter intra unité...) Qu'en est-il des données avant publication ? Faut-il préciser cette restriction ? 32. Quelles données seront partagées à l’issue du projet ? Si toutes les données ne sont pas disponibles de la même façon, ou en même temps, le préciser 33. Quelles sont les réutilisations potentielles de ces données ? 34. La lecture des données nécessite-t-elle le recours à un logiciel ou un outil spécifique ? Si oui, lequel ? 35. Comment les données seront-elles partagées ? Comment les données sont-elles rendues accessibles, par exemple : dépôt dans un entrepôt (le choix d'entrepôt est abordé dans la section "Archivage et conservation des données à long terme"). Le portail Data Inra peut accueillir les jeux de données Inra. 36. Avec qui ? sous quelle licence ? Procédure d’accès : ouverture à tous ou à un groupe spécifique, type de contrôle. Voir : Choisir une licence les licences habituelles (CC-BY, CC) sont en Anglais ou rédigées par la communauté Européeenne. Quid de leur application dans le droit Français? Ces licences sont tout à fait applicables en France. En fait la licence étant un contrat on peut décider de ce que l'on veut entre les parties. Les contrats tiennent lieu de loi à ceux qui les ont rédigés. La licence Creative commons est connue dans le monde entier Site des licences CC en francais : https://creativecommons.org/licenses/by/4.0/deed.fr 37. A partir de quand ? 38. Pendant combien de temps ? S'assurer que les métadonnées seront accessibles même si les données ne le sont plus.(par exemple en déposant dans un entrepôt de confiance, en identifiant les données par un DOI...) Y a-t-il un minimum légal de conservation de données sur datacenter? Des durées de conservation pratiquées? 39. Les données seront-elles identifiées par un identifiant pérenne (DOI ou autre) ? 40. Quel est l'organisme qui se chargera de la demande d'identifiant dans le cas de projets multi-partenaires ? Si l'Inra fait se charge de la demande de DOI, vous pouvez utiliser le service d'attribution de DOI de l'Inra. A noter qu'un DOI est automatiquement attribué aux données déposées dans l'entrepôt Data Inra. Stockage et sauvegarde des données au cours du projet 41. Stockage : Quels seront les supports utilisés pour les données au cours du projet ? Ex : Des procédures qualité ISO-9001 existent pour définir le protocole d'intégration des données. L'outillage d'intégration (ETL, SGBDR) garantit l'intégrité des données. Quel est le lien entre cette partie et la partie "44" ? on ne met pas les supports physiques ici ? juste les aspects logiques ? Réponse : 42. Stockage : Quels seront les types de flux empruntés par les données au cours du projet ? Fournir éventuellement un schéma fonctionnel du système d'information. Ex : Transfert par déchargement de données (ex : branchement terminal mobile sur PC) ; flux réseau applicatif (interconnexion d'applications) ; flux réseau manuel (mail, sftp, https ...) ; courrier postal (papier, clé USB) 43. Stockage : Quelle est la volumétrie prévisionnelle ? En mesure de stockage. Elle pourra être réévaluée au cours du projet. Ex : [n] Megaoctets 44. Stockage : Où sont hébergées physiquement les données, sur quel type d’hébergement ? Ex : Sur un PC, un serveur dans un bureau, dans une salle machine, dans un datacenter, dans une offre de service type cloud. 45. Stockage : Où sont localisées géographiquement les données ? Ex : En France, dans l'UE, hors UE, ne sait pas (cloud sans précision de stockage géographique) … 46. Sécurité : L'entité hébergeant physiquement les données a-t-elle une politique de sécurité pour son système d'information ? La Politique Sécurité des Systèmes d’Information (PSSI) est un ensemble de règles de sécurité faisant référence pour l'entité considérée. 47. Sécurité - Confidentialité : les données feront-elles l’objet d’échange ou de partage avec de tiers acteurs ? Confidentialité : propriété selon laquelle l’information n’est pas rendue disponible ni divulguée à des personnes, des entités ou des processus non autorisés (ISO 27000). Voir aussi "Renseignements confidentiels" sur le glossaire Research Data Canada (RDC). 48. Sécurité - Confidentialité : comment sont déterminés les droits d'accès aux données pendant les recherches ? Gestion des accès : Il convient que les propriétaires des actifs déterminent des règles de contrôle d’accès, des droits d’accès et des restrictions d’accès appropriés aux fonctions spécifiques de l’utilisateur des actifs. 49. Sécurité - Confidentialité : De quelle manière l’ensemble des chercheurs partenaires du projet auront-ils accès aux données pendant la recherche ? Méthode d'identification, d'authentification 50. Sécurité - Intégrité - Tracabilité : Quelles sont les mesures de protection mises en œuvre pour suivre la production et l'analyse des données au cours du projet ? Intégrité : propriété d’exactitude et de complétude (ISO 27000). Les données doivent être celles que l'on attend, et ne doivent pas être altérées de façon fortuite, illicite ou malveillante. En clair, les éléments considérés doivent être exacts et complets. (Wikipédia juin 2016) Archivage et conservation des données après la fin du projet 51. Quelles sont les données à conserver sur le moyen ou le long terme et quelles sont les données à détruire ? Ex : Toutes les données élaborées et dérivées sont conservées à long terme ainsi que les données brutes utiles (à une ré-exploitation ultérieure Les données dérivées ont-elles le même statut juridique que les données brutes ? Oui comme je vous le disais ce matin, on ne distingue pas la donnée dérivée de la donnée brute, ou même de la métadonnée. C'est la chose, elle n'a pas de statut juridique particulier et doit être encadrée par un contrat. Ce point ne fait-il pas doublon avec le 38? 52. Sur quelle plateforme d'archivage pérenne seront archivées les données à conserver sur le long terme ? Sinon, quelles procédures seront mises en place pour la conservation à long terme ? Il s'agit ici de plateformes d'archivage pérennes destinées à pérenniser les données, comme le C.I.N.E.S. Les entrepôts de données ne possèdent, à quelques exceptions près, pas cette possibilité. long terme = combien d'années? Réponse : pour le CINES, le long terme c'est plus de 15 ans. Moyen terme : entre 5 et 10 ans. Court terme : C'est du quotidien 53. Quelle est la durée de conservation des données ? 54. Qui sera responsable de la conservation à long terme ? nommer un contact individuel Le coordinateur du projet est responsable de la gestion des données durant le projet et de leur archivage à la fin de celui-ci. Le directeur de l'unité ayant coordonné le projet peut être responsable sur le long terme. 55. Quel sera le volume de ces données ? 56. Quelles garanties de financements couvriront les coûts associés à la conservation à long terme ? Pour estimer le coût de la gestion des données, voir - UK Data Service - Data management costing tool and checklist - OpenAIRE - How to identify and assess Research Data Management (RDM) costs