Conception d'un outil de centralisation des informations des CHATONS

#25

Bonjour !

@Bertille @Adrien_L étiez-vous présent le 17 Décembre 19, on a fait une courte présentation du web de données à l’UTC avec l’équipe de reconnexion (.app)
Présentation qui s’est d’ailleurs transformée en Tx :slight_smile: Il y a Sébastien Rosset (qui connais très bien Activity Pub) qui est membre de cette Tx du coup.

Du côté de l’Assemblée Virtuelle, c’est un peu notre passion de faire des cartographies et référencer des objets, plutôt de manière distribuée (c’est à dire que chacun choisit où il héberge son profil, ça peut être chez lui s’il en a les compétences et l’énergie, chez un ami, chez un chaton, etc…) du moment qu’il est libre de choisir et que les informations qu’il y stocke sont interopérable avec d’autres qui font du référencement.

C’est fort de ce constat qu’on a lancé Transiscope. Chaque source héberge des données (dans ce cadre elles sont hétérogènes donc on utilise un ETL qu’on a développé (le bus sémantique ) pour harmoniser les données. ça nous pose des problèmes de modération de contenu, de doublons, etc… et on y travaille. (pour info, nous mettre d’accord sur la taxonomie a pris beaucoup, beaucoup de temps :slight_smile: ).

En // on développe un outil basé sur Activity Pub et les triples store pour permettre de mettre en ligne facilement des serveurs interopérables (et donc faciliter les cartographies distribuées). On fait une petite présentation le 20 Mai au soir si ça vous intéresse https://framaforms.org/inscription-meetup-semapps-1-1588664069

Dans le benchmark, il y a également les amis de https://murmurations.network qui ont bossé sur un challenge similaire. Leur raisonnement est intéressant et pourra peut être vous permettre d’alimenter vos réflexions !

J’ai notifié les amis du web semantique de ce sujet. On échange principalement sur Matrix, mais nul doute que quelques une viendront faire un tour par ici.

A bientôt,
Pierre

1 Like
#26

Voila, du coup, si vous avez pas compris:

Si on décide de bouger vers du web sémantique, cela veut dire, à peu prêt, qu’il “suffira” de pointer transiscope vers le drupal chatons pour avoir tous les chatons là-bas aussi :slight_smile:

Ce serait cool hein? :slight_smile:

#27

La lecture annuelle de wikipedia c’est sympa, mais au cas où tu te lasses je recommande http://www.linkeddatatools.com/semantic-web-basics :slight_smile:

Une confusion que j’ai faite pendant longtemps : Semantique ne signifie pas interopérable. Semantique signifie que ta base de données est en graph (Jenna/Fuseki) et non tabulaire. ça ne signifie pas que tu es interopérable, il est nécessaire d’avoir un middleware qui le permette.
Et donc, tu peux être sémantique et pas intéropérable, et tu peux être tabulaire (non sémantique) et intéropérable (API - ça demande de traduire les données à chaque fois SAUF si tu as une API standard - ce qu’ils font https://talk.incommon.cc/)

#28

Waouw, j’ai rien compris ! J’essaie hein pourtant je vous jure…

Ça se tripatouille pas mal le concept, ça j’ai bien compris.

Mais CONCRÈTEMENT qui pose la première ligne de code ?
Parce que votre truc là j’ai pas le début d’une idée de ce que ça veut diable dire,

Donc si vous voulez “pointer transiscope vers le Drupal chatons” (!KAMOULOX!), vous attendez quoi ? Un POC que diable ! Et si c’est mieux, nous on range nos billes.

Cordialement,

#29

Qui c’est qui s’occupe de mettre @djayroma en PLS ? :mage:

J’avoue qu’on arrive avec nos gros sabots de conceptualisateurs relou :o

  1. ou est ce qu’on t’as perdu exactement ?
  2. est-ce que c’est plus convenable qu’on vous laisse POCer ici tranquillemement et qu’on-ceptualise sur un autre fil ?
    -> C’est vrai qu’on est un peu hors scope par rapport au thème relativement simple de la Tx (basic crawler), mais en même temps

alors moi dès que je lis ça, je me chauffe ! :fire:

Désolé d’avoir apporté du bruit ! (même si je pense que ça vaut le coup de jeter un :eye: à murmurations)

#30

Le transiscope:
https://transiscope.org/carte-des-alternatives/#/carte/@46.32,2.50,6z?cat=all

Le site https://chatons.org est un drupal et peut déjà donner du json:
https://chatons.org/fr/entraide/json

Et ce que je souhaite pour chatons ressemble fortement à librehosters:
https://libreho.st/

If you would like to be included in this list please add a [librehost.json file](https://lab.libreho.st/librehosters/librehost-api) to your projects website and add the project itself to the [librehosters directory repository](https://lab.libreho.st/librehosters/directory).

Ça aide?

1 Like
#31

Yep ça aide, je comprends mieux …

MAIS !

L’idée avec le POC TX, c’est de faire un crawler pour que chacun gère sa partie des services (décentralisation POWA)
ET àmha si on veut “pointer transiscop” il vaudra mieux le faire à terme sur entraide,
ET à terme exit chatons/drupal
ET c’est entraide qui sera le plus pertinent (parce que décentralisé… suivez un peu),
quitte à ce que que chatons/drupal aille puiser dans entraide sa Base…

Bref #mes2kopecs : Le crawler sera bien plus pertinent à terme, qu’une base de donnée centralisée et mise à jour via un formulaire (dixit Paul Mockapetris jeune stagiaire)…

Et l’objectif du crawler c’est bien de pisser du JSON si chère à ton cœur…

Elle est où ma PLS ?

1 Like
#32

Après si tu as le JSON et si tu peux entrer dans transiscop : Go !

Fais toi plaisir, on te regarde.

#33

Peut-être que Transiscope n’est pas vraiment le top pour faire un POC car il a déjà sa propre classification.
En revanche, on peut utiliser (simplement) gogocarto - logiciel libre qui génère la carte de Transiscope pour afficher les chatons sur la carte et avoir un rendu peut être un peu plus design que https://chatons.org/find avec une classification sur laquelle vous avez la main.

JSON/YAML -> crawler -> gogocarto

#34

Ca tombe bien, gogocarto.fr est hébergé par le chaton Colibris Outils Libres! :slight_smile:
Mais en effet le sujet n’est pas encore la restitution car à l’heure actuelle ce serait plus facile et bien plus opérationnel de faire drupal (en place) > gogocarto (en place) que JSON/YAML (à définir) -> crawler (à coder/tester) -> gogocarto

D’ailleurs c’est aussi un peu mon avis sur ce sujet, on est en train de décentraliser pour recentraliser après avec un autre outil (mais cette fois c’est un script python, c’est quand même mieux qu’un cms avec une interface (sarcasme)), sans que l’on ai pris le temps de discuter bien comme il faut du modèle des données.

Pourtant il y a tout le travail historique de @pyg et @angie sur les champs pour un chaton, les champs pour la conformité d’un chaton, et les champs nouveaux pour les services des chatons (et pour l’instant les formats de données proposées prennent en compte cette partie là mais moins le reste, qu’il serait intéressant à avoir) sur lequel s’appuyer, et donc ya du boulot pour que le nouveau modèle soit aussi complet que l’existant…

Je plussoies aussi la remarque de @Association42l sur le mélange français / anglais dans les données, il faudrait trancher.

Et enfin, j’ai un peu peur du travail d’animation que cela demanderait pour inciter tous les chatons à créer leur json chez eux, car je n’ose imaginer l’énorme temps d’animation pour @lise et @angie pour que les données soient bien saisies juste a un endroit avec un formulaire tout fait…

Pour moi, il est en tout cas impératif de prendre le temps de bien structurer les données qui permettent de qualifier un chaton, sa conformité à la charte, et tous ses services proposés, avant de discuter de si on le fait en yaml ou json ou json-ld, en centralisé ou en décentralisé, etc,…

1 Like
#35

La remontée d’informations des membres par un tel système, voilà qui parait très très intéressant \o/

On me souffle que des projets similaires existent dans le monde du Fediverse :

Vous connaissez ? Peut-être une source d’inspiration ?

Les projets semblent ne pas manquer :

Quelqu’un aurait une vision globale de où cela en est ? Un bilan pour en tirer des bonnes pratiques ? :slight_smile:

1 Like
#36

Pour info, pour le Chapril, on expérimente nodeinfo2 et serviceinfo :slight_smile:
Une combinaison pertinente semble être RFC6415 + serviceinfo.
Si pas suffisant pour le CHATONS, une solution possible est d’envisager RFC6415 + ChatonsInfo :wink:

1 Like
#37

Bonjour à tous.

Le fil de discussion a largement dérivé. Le travail des étudiants (que j’encadre) est borné dans le temps (il reste 1 mois à raison d’une journée par semaine environ de travail) et doit aboutir à des propositions concrètes. L’idée d’un autre fil pour des échanges plus prospectifs est donc une bonne idée.

Au stade où en est le travail, on ne changera pas pour YAML, outre la discussion de savoir si c’est mieux ou pas, ce serait un travail sans grand intérêt pour eux (la TX reste un processus pédagogique) et sans grand intérêt pour le POC ; si l’idée est bonne mais que JSON pose problème, il sera remplacé, ce sera du parsing à ajuster dans le code.

Là, et c’est l’idée d’une preuve de concept, est donc de faire marcher quelque chose avant la fin, afin de voir ce qu’on peut en dire en pratique (et non en projection théorique).

Si vous avez envie de contribuer concrètement à ce travail, vous pouvez alimenter le crawler en éditant le JSON de votre Chaton et en mettant à dispo votre URL. On pourra ainsi discuter en pratique de cette hypothèse.
Vous pouvez aussi faire des retours pour améliorer ce qui est fait au niveau code, modèle de données, documentation, etc. (merci beaucoup à ceux qui l’ont fait). Mais si vous avez envie de proposer autre chose, ce n’est pas dans le scope limité des étudiants que ça entrera. Et si vous ne souhaitez pas contribuer parce que vous n’aimez pas quelque chose dans ce projet, aucun souci, c’est la liberté de chacun.

Merci à vous,
Stéphane.

3 Likes
#38

Désolé si ça a dérivé, en tout cas une bonne raison pour eux d’apprendre ce bon vieux xkcd

Chez les librehosters, on a déjà un json, je sais que ce n’est pas le même schéma, mais peut peut-être vous pouvez vous amuser avec?

https://libreho.st/directory.json

Bon courage à eux :slight_smile:

1 Like
#39

Salut,

@stph je te cite :

Et ensuite :

J’ai proposé (en MR sur le projet) de permettre de parser du YAML en plus, pas de tout remplacer, mais de permettre en se basant sur l’URL de parser du JSON ou du YAML.

Je ne vois pas pourquoi tu refuses cette évolution du code, la MR est vraiment petite : https://framagit.org/bertille/tx-collecte-chatons/-/merge_requests/6/diffs

C’est pas un REMPLACEMENT, c’est un AJOUT, le code se base sur l’URL que le chaton fourni, avec un fichier exemple ça me semble vraiment simple.

Cordialement,

1 Like
#40

Bonjour,

Je ne refuse rien, je n’ai pas ce pouvoir ni cette envie, je priorise uniquement le travail des étudiants dans leur cadre pédagogique ; la suite appartiendra aux Chatons et cette MR pourra tout à fait être acceptée, ce n’est certainement pas moi qui déciderai.

Gérer deux formats, c’est gérer deux logiques de validation, d’édition, c’est poser la question de JSON-LD avec YAML, c’est des conversions pour le moteur de recherche en JS qu’ils sont en train de faire, bref, c’est plein de “petites” choses, qui vont les ralentir dans leurs investigations, alors qu’ils ont d’autres sujets à creuser et peu d’énergie restante.

C’est l’idée d’un POC telle que je la conçois, on ne cherche pas forcément la meilleure solution, on cherche à faire fonctionner quelque chose presque en vrai pour ensuite continuer de se poser des questions (comme JSON vs YAML si c’est ce qui ressort de cette expérience).

J’ai peut-être eu tord de chercher à mettre les étudiants en situation réelle dans le contexte du CHATONS, dans ce cas je m’en excuse, et comme dit précédemment, sentez vous libre de ne pas répondre. Je pensais que ce serait chouette pour eux et pour le collectif de mixer les dynamiques, mais finalement j’ai un doute je ne pense pas que je reprendrai cette initiative de la même façon en tous cas.

In fine, cela reste un travail pédagogique, c’est donc cet axe qui prime (on pourra aussi ne pas être d’accord avec ce que je trouve “pédagogique” et ce que d’autres trouveront plus “pédagogique”, mais disons que là c’est mon job et que je n’ai pas prévu d’en parler sur cette liste).

Voilà, encore désolé des déceptions suscitées au sein du collectif et chez les étudiants, je ferai différemment à l’avenir.

Bonne continuation à tous,

Stéphane.

2 Likes
#41

Hello,
L’initiative est plus que bienvenue, mais peut être aurait il fallu des moments de discussion en direct pour avancer ensemble sur le modèle de données car la discussion par forum me semble compliqué pour établir un modèle…

Le fait que des issues et merge request soient générées me semble plutôt formateur, non?
En tout ca je trouve cela chouette que des étudiants viennent pour proposer des choses, après on peut aussi ne pas etre d’accord sans que cela entraine des grosses remises en cause…

Afin de permettre a cette Px d’aboutir, quels seraient les petits pas nécessaires ?
Je veux bien jouer le jeu pour Colibris outils libres et publier un json, mais mes remarques (et celles d’autres chatons) sur par exemple trancher entre un vocabulaire francais/anglais et prendre plus d’infos sur le modèle organisation/hébergeur peuvent elles encore etre prises en compte? Comment faire la spécification? Prévoir un temps de réunion?

1 Like
#42

Merci de cette proposition, l’idée des petits pas est jolie.
Je fais un point avec eux, mais a priori :

  • normaliser le voc entre fr/en est bien à faire (je laisse Bertille préciser, mais je vois que les clés sont en anglais et les valeurs en français, n’est ce pas ? ça pour moi ce n’est pas un pb en soi). Et donc comme c’est en français pour le moment, on peut s’en tenir là à ce stade et éventuellement traduire plus tard)
  • retravailler le modèle était dans leur planning ; il est en effet difficile de faire un travail approfondi avec tous, mais je pense qu’un échange direct avec certains est une très bonne idée.
    À suivre.
2 Likes
#43

Salut @mrflos !

Effectivement, le modèle gagnerait à être amélioré mais ça dépasse un peu le cadre de notre travail puisqu’il existait déjà avant, sur le site chatons.org, et continuera d’exister que notre PoC marche ou pas ^^ Cela étant dit, comme l’intégration fonctionnelle et technique de cet outil au reste de l’écosystème CHATONS ne se fera pas tout de suite (et peut-être jamais), c’est vrai qu’on peut en profiter pour essayer d’être un peu plus rigoureux·es dans le modèle qu’on utilise. Et oui, s’appuyer sur les modèles organisation et hébergeur de schema.org (si c’est bien à ça que tu fais référence), comme fait LibreHosters, est une bonne piste pour faire ce travail. En tout cas, on va essayer d’intégrer les suggestions, sur le versionnage par exemple, ou l’élargissement des services possibles.

Ça nous amène à la question de la langue, et là c’est un peu délicat. Si on veut un jour faire du JSON-LD, il faut que les clefs soient en anglais, c’est comme ça dans schema.org et c’est standard. Mais si on veut que le tout s’intègre facilement au Drupal du CHATONS, il faut que les valeurs soient en français, comme celles actuellement définies… C’est pas très beau, mais on voit pas trop d’autre solution à l’heure actuelle :confused:

Si tu es toujours partant pour publier un JSON pour Colibris, on peut prendre contact en MP pour éviter de spammer ici :slight_smile:

2 Likes
#44

Pour moi, il y a pour les chatons 2 options :

  • soit pas trop d’énergie à changer le système drupal de saisie et on accepte collectivement de se baser là dessus pour un certain temps.
  • soit on passe a autre chose, mais autant que ce soit normé et dans les règles de l’art (et coller aux rfc et base schema.org )
    J’imagine que vous n’aurez pas le temps d’attendre que le collectif décide, on a une réunion mensuelle, plus le temps d’un éventuel vote, avec l’été qui arrive… … mais peut être pouvez vous faire deux scénarii : celui actuel qui colle au choix 1 qui est presque finalisé, et un scenario 2 avec un modèle de json plus évolué, en anglais, etc,… (meme juste un mémorandum avec les normes existantes sur lesquelles s’appuyer, genre synthese de la discussion du forum serait un vrai plus)
    Comme je n’ai aucune idée du temps que vous avez, n’hésitez pas a considérer cela comme une demande irréaliste en vue de vos contraintes, hein!

Ok, files moi en MP le lien d’exemple de json le plus a jour par rapport a votre travail (si c’est celui du dépot git c’est ok), je ferai l’adaptation et te dirait en MP quand c’est publié

3 Likes