Faire changer les pratiques des boites en terme de protection des données

Stell · Février 10, 2020, 9:52

Hello à tous,

Je voudrais vous parler d’un projet qui n’est pas un CHATONS mais qui pourrait vous intéresser.

On est parti du constat qu’en 2020, les boites doivent changer de pratiques pour protéger les données de leurs utilisateurs·trices des géants de la tech.

Il nous semble urgent de recréer la confiance entre les sites et les utilisateurs·trices pour la protection des informations privées.

On a créé l’application Misakey avec 7 ingénieur·es pour qu’à partir de maintenant :

Les utilisateurs·trices puissent facilement habituer les sites à leur renvoyer leurs données à l’abri des géants de la tech.
Les sites puissent facilement renvoyer les données de leurs utilisateurs·trices à l’abri des géants de la tech.

N’hésitez pas à vous inscrire et essayer ! https://www.misakey.com

PS : Les commentaires, super-idées, déceptions, et propositions d’amélioration guident nos efforts quotidiens. Ils sont plus que bienvenus, ils sont indispensables à ce qu’on puisse réussir

Cpm · Février 14, 2020, 7:14

Désolé, j’ai bien relu plusieurs fois et je ne comprends toujours pas ce que fait exactement Misakey

C’est quoi « renvoyer les données » ? Quelles données ? En quoi ça protège des GAFAM ?

De plus, plusieurs détails ne sont pas très engageants :

« Les services fournis par Misakey sont hébergés par AWS en France (Amazon Web Service) pour faciliter l’avancement du projet. »
- bah oui, mais non
« Misakey […] s’organise pour produire un maximum de code libre. »
- un maximum seulement, pourquoi pas 100 % ?
« Misakey publie les sources → https://gitlab.com/Misakey »
- sur une plateforme non libre (gitlab.com est sous Gitlab EE)
« Les fondateurs Antoine, CTO Arthur, CEO »
- seulement des prénoms ? Faible transparence donc…
« Misakey publie les sources de ses services sous license BSL »
- BSL (Boost Source License) ou BSL (Business Source License) ?

Sinon absence de traceurs web (Google Analytics, etc.), bien ça

Bon courage.

ljf · Février 15, 2020, 11:29

@Cpm ma compréhension c’est que c’est un service qui t’aide à faire des demandes pour savoir quelles sont les données en possession des GAFAM via les procédures RGPD et Informatique et Libertés.

Moi la question que je me pose: y a t’il une garantie technique qui empêche misakey de pouvoir lire les données ainsi récupérées ?

Si oui, je trouve le service chouette.
Si non, je suis mitigé car ça pourrait être le cas.

Cpm · Février 17, 2020, 5:43

@ljf vu comme ça, effectivement, ça commencerait à prendre du sens
Je croyais que pour récupérer ses données dans n’importe quelle entreprise, un courrier suffisait. A-t-on des études qui montrerait que les entreprises ne jouent pas le jeu ?

Très bonne question. Sinon ça risque d’ajouter un acteur de plus à la problématique (https://xkcd.com/927/).
Antoine, je pense qu’on est au max là, à toi de préciser les choses pour éventuellement aller plus loin

ljf · Février 17, 2020, 1:30

Un courrier X x entreprises partenaires. Si tu regardes les bandeaux cookies tu constatera que chaque site à 300 partenaire qu’il faudrait interroger aussi. Tout de suite si il faut 300 enveloppes ça complexifie. Sachant qu’ils vont demander tel ou tel pièce complémentaire, en pas répondre, etc.

Enfin c’est que pur supposition, chez ARN on s’était dit qu’on ferait une RGPD party un de ces 4 sur le concept on demande tous nos données au maximum d’entreprises

Cpm · Février 17, 2020, 1:41

Haaaaaa, effectivement ça devient de plus en plus intéressant. merci @ljf.
Antoine, tu sais ce qu’il te reste à faire : en dire plus

Stell · Février 17, 2020, 3:12

Merci de vos retours ! (:

Pour répondre points par points:

Totalement d’accord avec toi, et on projette de les quitter avant la fin de l’année. Aujourd’hui on est chez AWS pour les crédits gratuits, qui nous permettent de limiter nos dépenses pour la phase de développement.

Il y a deux aspects à ce niveau la:

Produire du code libre et réutilisable est plus exigeant que de fournir du code ouvert, du coup on est en chemin vers ça. Tout notre code est disponible; en revanche, il reste à produire de la documentation et à améliorer la structuration pour rendre le code facilement réutilisable
On ne sait pas encore comment est-ce qu’on va trouver un équilibre financier pour rendre durable Misakey. Du coup, on avance pas à pas…On rêve de produire 100% de code libre mais on a encore un peu peur de se faire manger par un/des gros qui pourraient travestir la mission (en en faisant une service du genre « vends tes données » qui excite plus facilement les gens mais qui n’est pas du tout dans l’esprit de ce qu’on souhaite créer)

Je suis curieux d’avoir ton avis la dessus. J’ai l’impression que c’est ce que font des entreprises qui font de l’opensource comme MariaDB, ElasticSearch ou Sentry. Que penses tu du modèle de ces entreprises ?

Ahah je suis surpris, j’étais déjà tout fier de pas être chez Github ! Tu nous conseillerais quoi du coup ?

Ah effectivement, on n’avait mis que les prénoms par pure légèreté de forme. On va mettre nos noms complets. Merci de la recommandation ! (:

Business Source License, avec l’inspiration de MariaDB ou Sentry ! Tu as un avis la dessus ?

Tout à fait ! Ce n’était pas une option pour nous de fournir le service sans qu’on soit en incapacité technique à accéder au contenu des fichiers récupérés. On a mis en place un protocole de chiffrement de bout en bout qui est auditable

Le projet part justement du constat que même 2 ans après la mise en application du RGPD, il est encore extrêmement difficile d’accéder à ses propres données. Il y a des études à droites à gauche sur le sujet. De notre côté on a fait une étude il y a un peu plus d’un an sur ou en étaient les entreprises à ce niveau la. Si ça t’intéresse on a une infographie qui résume ce qu’on a fait. Si tu veux en savoir plus, je peux te donner le reste de l’étude aussi !

On a pas mal taffé sur ce sujet, est-ce que ça t’intéresserais qu’on structure un peu les connaissances qu’on a pris sur le terrain à ce niveau la ? (en lisant ton message je me dis qu’un kit sous Creative Commons de retours d’expérience et apprentissages qu’on a pu récupérer en chemin pourrait être utile)

ljf · Février 17, 2020, 3:30

Oui ça nous serais super utile

cquest · Février 17, 2020, 4:41

Si j’ai bien compris, misakey se place en intermédiaire entre certains sites partenaires et moi, internaute.
Il me permet de récupérer plus facilement mes données personnelles auprès de ces sites et les stocke dans un « coffre-fort ».

L’idée est bonne, mais comme toujours le diable se cache dans les détails.

Ces données sont-elles chiffrées ?
Si non… ok, terminé pour moi pas besoin d’aller plus loin.

Si oui, à quel moment, par qui et qui peut les déchiffrer ?

Un service qui me permettrait de fournir une clé publique aux sites partenaires pour qu’il chiffrent les données et les déposent dans le coffre fort de misakey m’irait très bien car seul moi pourrait les déchiffrer. Mais je doute fort que cela fonctionne ainsi.

Stell · Février 18, 2020, 7:53

Tout est chiffré de bout en bout. Le responsable du site à une interface pour déposer et chiffrer les fichiers localement depuis son navigateur de l’utilisateur avant de lui envoyer. L’utilisateur déchiffre ses fichiers localement dans son interface dans son navigateur.
Pour la gestion des clés, elles sont générés par le navigateur de l’utilisateur et la clé privée est sécurisée avec son mot de passe (de la même manière que ce que ce que fait Bitwarden, ou Proton mail).

cquest · Février 18, 2020, 8:55

Merci pour ces précisions.

Il serait fort utile de l’expliquer clairement sur votre site, y compris visuellement lors de la création du compte.

Il reste toutefois de nombreux problèmes potentiels, car cette position d’intermédiaire permet si facilement d’agir en « man in the middle ».

Stell · Février 18, 2020, 9:36

Merci de ton retour (:

Totalement d’accord ! On est dessus, c’est pas évident de trouver un moyen simple et efficace

Tu pourrais expliciter ce que tu as derrière la tête ?

ljf · Février 18, 2020, 10:21

Il reste possible d’inclure un code dans la page du navigateur où se passe le déchiffrement, et donc de faire remonter vers un serveur les données déchiffrées. Idem au moment où les données sont déposées.

Le risque principal (à mon sens) est donc lié au code même du siteweb et à son serveur, et à la possibilité pour une personne mal intentionnée de changer ce code hébergé sur votre serveur de production. Ça peut être vous, un stagiaire qui y a accès, un attaquant qui a troué votre serveur, un prestataire si vous avez un VPS…

Ça pourrait aussi être une librairie tierce si elle est chargée via un CDN et sans contrôle d’intégrité. Mais vous ne semblez pas utiliser de librairie js tierce.

On peut aussi imaginer qu’un virus se situe sur le poste des utilisateurs et utilisatrices du service, mais là c’est un problème de l’entreprise qui envoie et de l’usager qui reçoit, pas tellement de votre service.

En terme de man in the middle, si on imagine une usurpation d’ip, de la manipulation de DNS ou du phishing (ex:misakey.co), on peut envisager aussi des scénarii où l’entreprise dépose sur un faux site, qui lui renvoie les données vers le vrai, cassant ainsi le système de bout en bout. Mais il y a probablement des solutions pour atténuer ces risques.

ljf · Février 18, 2020, 10:22

Ceci dit je trouve toujours que c’est une bonne idée, mais c’est vrai que ça fait tout passer par un service augmentant les risques à ce niveau.

cquest · Février 18, 2020, 11:44

Ce qui est presque plus inquiétant, c’est qu’un site A puisse se contenter d’un simple email pour fournir des données personnelles à un autre site B (ici c’est misakey, mais ça pourrait être n’importe qui).

Je ne pense pas que la portabilité ait été envisagée pour fonctionner ainsi, avec si peu de garde-fou et pour cet usage.

L’idée originale derrière la portabilité des données était de pouvoir migrer d’un service en ligne à un autre et de redonner à tous une liberté. Je connais très bien la genèse de celle-ci
En quoi récupérer la liste de mes achats sur un site d’e-commerce est nécessaire pour utiliser un autre site d’e-commerce ?
Ici c’est avant le droit d’accès qui est pertinent, pas la portabilité sur laquelle misakey s’appuie.

Récupérer mes photos pour les mettre ailleurs c’est intéressant, mais ce n’est pas avec 10Mo de stockage que ça se fait et misakey ne semble pas proposer de refournir ces infos à un autre site si je le demande pour aboutir à une réelle portabilité.

Stell · Février 19, 2020, 12:37

Yes je vois ! On s’est posé la question de comment réussir à mitiger ça.
Est-ce qui un client lourd résoudrait le soucis pour toi ? Ou la possibilité d’avoir des frontends hébergés par d’autres entités (soi même, un CHATONS, les entreprises pour leur DPO, etc) ?

D’ailleurs si tu vois d’autres moyens de mitiger ce que tu soulèves, je suis preneur aussi (:

C’est clairement notre objectif: on veut se positionner comme un acteur qui permet à l’utilisateur de faire transiter ses données facilement d’un site à l’autre (le bon exemple pour moi est de passer de Spotify à Deezer: si je peux extraire mon historique d’écoute, mes playlists, mes artistes, … je suis libéré de la prison que constitue mon hébergeur actuel).
Par contre on est obligé de faire une étape après l’autre: du coup aujourd’hui on construit la brique pour récupérer les données (qui a déjà je pense une valeur), et une fois que celle la sera consolidé on pourra construire le re-partage

Cpm · Mars 26, 2020, 11:23

Au pire, d’installer votre propre instance Gitlab CE. Ce sera un logiciel libre (CE => Community Edition), vous aurez la maîtrise de votre outil et en tant qu’éditeur, vous donnerez une image de compétence.

Cpm · Mars 26, 2020, 11:38

Comment baser une décision si importante juste sur une impression ? À quoi bon reproduire les erreurs des grands ? Pourquoi s’imposer de vivre dans la peur et mettre dans l’incertitude ses clients ?
Ce qui fera ton avenir n’est pas de ressembler aux autres mais de trouver des clients et de cultiver ta relation avec eux. Possible est le choix de mériter la pleine confiance de ses clients, en se basant sur une relation équitable jusqu’au bout. En cela la licence GNU AGPL est exemplaire d’un point de vue éthique mais aussi marketing.
À toi de décider comment tu veux vivre ton entrepreneuriat. Trembler et faire trembler, ou construire dans la tranquillité d’esprit.