Je vais essayer de donner un peu de contexte, et à la fin, j’ai trois questions très concrètes, et des solutions aussi
Contexte - Problème à résoudre
Quel est le problème que nous essayons de résoudre ici?
Si on se place du point de vue de l’utilisateur, celui ci va poser la question « Comment éditer un document à plusieurs » dans son moteur de recherche. Et le moteur de recherche va répondre une liste de site avec la question et donc potentiellement la réponse pour la question initiale. (Bravo framapad, 2eme résultat avec google en nav privée).
Plus spécifiquement, dans le contexte des chatons, l’idée est d’aider les utilisateurs à trouver des outils qui correspondent à l’usage qu’ils ont besoin, fournit par un hébergeur « labellisé » chatons.
Ceci est un problème de taxonomie. (je lie et relie la page wikipedia plusieurs fois par an, et je commence à peine à comprendre).
De ce que je comprends, nous essayons de catégoriser les différents chatons sous différents critères, pour ensuite aider l’utilisateur à trouver le chatons ou le service dont il a besoin.
(si vous n’êtes pas d’accord à ce stade, il faut le dire, parce que le reste va dépendre de cela).
Solutions
Moteur de recherche
PYG au départ aurait pu développer un moteur de recherche
Vous l’aurez compris, c’est plus compliqué
Mais ce que je veux dire par là c’est que c’est le métier des moteur de recherche d’aider les utilisateurs à trouver des réponses à leur questions.
Meme on peut aller plus loin et dire que c’est 2 façons de trouver de l’information sur Internet, avec un moteur de recherche ou un annuaire. Les annuaires sont apparus en premier.
Et les moteur de recherche font de la taxonomie pour classifier les pages web et essayer de comprendre si c’est une personne, un lieux, un évènement ou un hébergeur de pad.
Une des méthodes est d’utiliser de l’intelligence artificielle pour effectuer cette taxonomie.
Je ne sais pas si on peut développer une intelligence artificielle pour détecter un chatons, mais certains arrivent à détecter un logiciel libre avec le design moche, donc pourquoi pas ( # petite blague, sarcasm tout ça )
Ontologie
L’autre méthode est de développer une ontologie (Pareil, je la lie plusieurs fois par an, c’est complexe ).
Une ontologie est un vocabulaire pour la taxonomie (je crois avoir compris ça).
PYG est parti sur cette voie là au commencement de chatons, et il a définie une ontology, un schéma dans une base de donnée, qui se transforme en questionnaire pour chaque chatons, à remplir.
Enfin, pour l’utilisateur final, il peut rechercher grâce à ce formulaire.
C’est en effet beaucoup plus facile à faire qu’un moteur de recherche C’est un annuaire de chatons.
Il existe de nombreuses ontologies, FriendOfAFriend, activityPub, https://schema.org…
Conclusion
Nous sommes d’accord à ce stade que c’est un problème de taxonomie, et que la façon la plus simple de la résoudre est de créer une ontologie.
PYG en a déjà créé une, et elle est utilisé sur le site entraide.
(Quoi qu’il arrive, il faut se mettre tous d’accord sur une ontologie et la maintenir).
Et ici, une autre ontologie est proposée.
Reste aussi à parler du moyen technique, jusqu’à maintenant, on utilise une base de donnée drupal, avec un formulaire, et celui-ci peut exporter du json, et même du yaml si on le décide je pense.
Semantic Web
Comme dit plus haut, Google investit massivement dans l’intelligence artificielle pour essayer de comprendre de quoi parle une page. Une autre méthode poussée par les moteur de recherche (pas que google hein), et que les pages disent elles-mêmes ce qu’elles représentent.
Et pour se faire, les moteurs de recherche demandent aux éditeur de site de décrire le document avec un langage compris par les machines.
Et ils développent même une motivation pour se faire. Si vous voulez avoir de plus « beaux » résultats, il faut respecter notre schéma.
Et donc google avec d’autres, poussent le développement du semantic web.
Je vous recommande d’aller faire un tour sur ces liens pour comprendre ce dont il s’agit:
Et c’est une techno w3c.
Tim Berners Lee (un des concepteur du web) essaye de pousser cette techno. (D’ailleurs Michiel De Jong avec qui j’ai créé IndieHost travaille maintenant avec lui et sa page est semantic avec la techno microformat. )
Et enfin, je vous recommande cette video sur LinkedData, un TED avec Tim Berners Lee.
Technos
Dans le web semantique, il y a plusieurs moyens technique de le mettre en place:
(J’ai pas vu de yaml-ld pour le moment désolé)
Ontologies
Il y a énormément d’ontologies, seulement schema.org est reconnu par les moteurs de recherche.
Questions
Du coup, à ce stade, je pense qu’il devient naturel de se poser 3 questions:
- est-ce qu’on veut faire du web semantic ?
- quelle techno on utilise?
- quelle ontologie
Ma réponse
Oui, bien sur, on veut faire du web sémantic
Comme Google et Bing utilisent des résultats enrichies avec shema.org, je propose qu’on utilise cette ontologie.
Et enfin, je pense que le json-ld est le plus facile en mettre en œuvre, donc je recommande celui ci.
Comme sur librehosters au final (chatons au niveau européen.)
Pourquoi pas le chemin well/known
→ le chemin well known: https://lab.libreho.st/librehosters/directory/issues/5
PraticoPratiquement maintenant
Du coup, si on est d’accord avec le semantic web, cela veut dire que l’information se trouve sur le site du chatons.
Il faut donc créer un outils capable d’aller chercher cette info et la digérer pour la présenter à l’utilisateur final.
écrire un json-ld
Pour les gens qui disent c’est difficile de mettre un json sur son site, si on utilise des standards, cela est positif, cela veut dire que d’autres gens travaille aussi dessus.
Par exemple, il existe des plugins wordpress pour publier du json-ld.
Et je ne serais pas surpris de voir d’autre CMS avoir cette fonctionnalité.
( Pour hugo, c’est juste super simple )
outils pour aider à générer le json du chatons
On peut aussi imaginer un outils qui fait ce travail. Aujourd’hui d’ailleurs, drupal le fait. Et on pourrait imaginer le garder. Et ajouter une fonctionnalité qui permet d’export son json-ld, ou meme définir le drupal comme source de vérité, comme c’est le cas pour le site entraide.
aller chercher l’information
Ensuite, pour afficher l’information sur un site comme entraide, il faut d’abord aller la chercher.
Aujourd’hui, la source de vérité est le drupal.
Si on passe en semantic, il faut aller chercher l’info chez tous les chatons.
Il existe déjà un langage pour cela, SPARQL.
Je ne suis pas expert, mais il faut creuser.
Et donc, on peut imaginer un outils, qui prends le tableau des urls des chatons en entrée et sort un json avec toute les infos nécessaires pour construire les différentes pages de entraide par exemple.
Il y a déjà beaucoup de données sémantique dans une page web html:
- titre
- description
- favicon
- tags twitter (semantic web aussi)
- tags facebook (social graph est une autre ontology)
Et si il y avait une quantité infinie de temps, on pourrait imaginer que notre outils puisse comprendre cela.
Afficher l’information
Une fois que l’information est là, il devient simple de l’afficher, transfomer une base de donnée en html (drupal) ou json en html (le site entraide), on sait faire.
Conclusion
Beaucoup de gens, beaucoup plus intelligents que moi réfléchissent à ce problème depuis beaucoup plus longtemps que moi, et je pense qu’il faut s’appuyer sur leurs travaux.
Je pense sincèrement que le semantic web, c’est l’avenir, mais que cela va encore prendre beaucoup de temps. C’est aussi une manière pour nous de pouvoir développer des annuaires sans la complexité du développement d’un moteur de recherche.
Je pense personnellement que json-ld et schema.org sont la voie à suivre, car cela permet au chatons une visibilité accrue sur les moteurs de recherche. Et on peut s’appuyer sur l’expérience de librehosters pour cela.
Enfin, quels outils pour le mettre en oeuvre? Je ne sais pas, j’ai pas d’opinion forte pour le moment, et encore moins car j’ai pas le temps pour développer cela.
Si c’est drupal qui va chercher le json-ld de chaque chatons et qui permet de compléter sa base de donnée, avec aussi la possibilité de remplir un formulaire, et que c’est ensuite utilisé par un site statique avec une api qui va chercher un json du drupal, ça me va
Et surtout, si on développe des outils pour json-ld et schema.org, ils pourront s’inscrire dans un écosystème, et non dans un entre-soi.
(Dans tous les cas, si ce n’est pas le cas, on peut aussi développer des « traducteurs », mais ça va être beaucoup plus complexe )
My 1 euro (Oui, c’est un peu plus que 2cents à ce stade )