Ayant été amené à faire de la supervision d’URL récemment et le problème de superviser ses sites en local, je propose que les chatons qui seraient intéressés pour faire des échanges de supervision (et donc améliorer sa dispo) se mettent en contact ici (pour finir en MP / mail / Matrix / XMPP…)
Pour Nomagic (et à priori Alolise) par exemple, on peut prendre jusqu’à une dizaine de checks type URL pour 2-3 chatons (l’idée étant que chaque chaton supervise 2-3 autres chatons, on aurait donc un même chaton supervisé par 2 ou 3 chatons différents, potentiellement contacté sur des adresses courriel différent, maximisant les chances d’être alerté en cas de problème).
Il s’agirait de checks simples testant une URL en attendant un retour HTTP 200/OK et contrôlant aussi le nombre de jour restant pour la valider du certificat SSL associé.
En cas d’alerte, un mail est envoyé au bout de 15 minutes d’alerte (par défaut).
On pourrait aussi discuter de checks de type email si besoin.
CHA’lut ( han! Personne ne l’avait jamais faite, je suis un humor master ! )
Je suis d’accord avec l’intégralité de ton mail, sauf sur 1 point :
le temps d’alerte,
Je ne crois pas me tromper en supposant que nos infrastructures ne
sont pas des modèles 4-9 (99,99%), il ne sera donc pas rare d’avoir
un bitoniau qui frotte quelque part et pendant au moins un quart
d’heure,
Sachant que de toute façon, l’alerte bigophone s’enclenchera en
moins de 2 minutes si un quelconque quidam passe par là avec en
mémoire ou dans son smartphone le numéro de l’infortuné
administrateur système,
N’ayant aucune envie de voir ma belle boite mail - archivée avec
soin - s’écrouler et gémir sous le poids de faux positifs et de
signaux périodiques qui tombent en marche sous l’effet d’un
éternuement un peu fort à quelques centaines de mètres.
Il est donc cruciale que le destinataire des mails soit à même de
choisir lui même la temporalité de l’envoi des mails, sa répétition,
ainsi que l’information de reprise, et ce service par service, en
l’absence il ne s’agira que d’un service de SPAM qui génèrera trop
d’alerte pour que celles-ci soient prises au sérieux #tropalertetuealerte
Oui je suis bien évidemment d’accord pour que le chaton supervisé définisse ses préférences de temps d’alertes / période de renvoi (pour les supervisions qui gère les mails de rappel).
Je serai intéressé de participer a cette supervision coopérative inter-chatons, pour le chaton colibris, intéressé aussi de savoir ce que vous utilisez.
Pour notre part, on explore Monit, Munin et Netdata, mais pour l’instant les alertes c’est pas encore super bien configuré (on reçoit juste des mails)
Chez Alolise on utilise Sensu pour la supervision, avec la conf gérée via Ansible, et les notifs par mail également.
Sensu fait le boulot pour nos besoins, mais avec l’abandon de la version ruby et les changements à prévoir pour passer à la version go, je me tâte à essayer autre chose.
pas encore un chatons mais carrément intéresssé, cela rejoint la proposition que j’ai faite en tentant de lancer une perche pour mutaliser nos admins sys. surtout lors des vacances …
De mon coté, j’utilise Zabbix avec à la fois une supervision serveurs (cpu, mémoire, espace disque, bande passante) mais aussi du web (statut, contenu, vitesse). Ça envoi du mail en cas de problème et du SMS quand c’est important.
Il est possible d’ajouter d’autres accès et de créer des groupes. Ces groupes contiennent des hôtes (les serveurs) qui sont managés par l’administrateur affecté au groupe. Un hôte va donc pouvoir être monitoré et on peut aussi lui affecter des scénarios web.
La seule contrainte serait d’installer un agent Zabbix (aptitude install zabbix-agent) et de l’affecter à mon serveur.
Je suis pas sûr de comprendre la dernière ligne. C’est sûrement à cause du changement de conjugaison (imparfait, après une présentation faite au présent qui décrit la solution). On ne parle pas d’installer un agent Zabbix sur l’infra du chaton opposé, si ?
Pas que ce soit impossible, mais mon idée est plus sur une ligne minimum ‹ y a pouls › (l’URL répond en HTTP 200 / le mail test est accepté sur l’authentification), qu’une redondance complète de supervision.
Bien que ça puisse bien évidement se discuter entre chatons…
« On ne parle pas d’installer un agent Zabbix sur l’infra du chaton opposé, si ? », on parle bien de ça mais ça n’est pas nécessaire si on veut minimiser la supervision et se limiter à des scénarios web.
Je ne suis pas encore chaton, mais j’ai déjà toute une infrastructure de monitoring (plus précisément, j’ai un serveur sur lequel “je vis” et tout y est fait pour que je voie immédiatement s’il a des problèmes, et je monitore mes autres serveurs depuis ce serveur), web, mail envoyés/reçus, ressources, etc.
Je peux ajouter sans problème des ressources externe à monitorer. Si elles sont contactables de l’extérieur (url, port ouvert, ping, etc.) je n’ai besoin que d’un moyen de contact pour prévenir des problèmes (xmpp, mail, webhook, sms).
Si elles sont internes (process CPU par exemple) il y aura un programme à installer localement qui aurait pour rôle de vérifier les informations puis les envoyer régulièrement à mon serveur qui s’occupe ensuite de vérifier que tout va bien et prévenir quand il y a un souci.
C’est assez souple et chaque ressource peut être configurée indépendemment pour éviter d’être submergé d’alertes.
(je ne suis pas contre de la redondance sur mon monitoring, mais je suis suffisamment tranquille d’esprit avec l’état actuel de ce que j’ai mis en place)
Je coordonne un Chaton collectif d’auto-hébergés hébergeurs aka auto-hébergeurs. Oui oui c’est une belle mise en abîme d’un collectif dans le collectif, dont certain de nos membre pourrais êtres des collectif (hop une double).
Du fait qu’on utilise quasi tout nos propres services et qu’en dehors de ça on propose des VPS (monitoring à charge de l’hébergé pour le moment), on à pas vraiment besoin de monitoring.
J’ai prévus aussi un jour de mettre en route un Zabbix, ouvert à nos membres auto-hébergeurs, pourquoi pas au Chatons aussi si y’as des demandes.
On en parle pas souvent mais ils sont souvent là lors des rassemblements sur les logiciels libres: les gars de Centreon (cocorico) font un super boulot aussi. Pour l’avoir utilisé pendant 2 ans en entreprise après une courte expérience Zabbix : en monitoring ‹ traditionnel ›, type Nagios, c’est solide et ca fait le boulot sans qu’on ai grand chose à pouvoir lui reprocher. J’ai aussi trouvé le passage à Centreon depuis Nagios beaucoup plus ‹ naturel › que Zabbix (bien que, une fois qu’on a compris le paradigme de Zabbix, cela se pilote pas mal non plus).
Mais je vois bien que le problème est que chacun utilise son stack de monitoring, et a part discuter technos, on avance pas trop (J’adore aussi ça, c’est la principale raison de mon implication dans chatons je pense et je vois que le forum technique fonctionne super bien!)
Nous aussi on a besoin du service et on peut aussi l’offrir a d’autres chatons.
Plus je me rapproche du moment ou je compte me joindre au collectif plus je me dis qu’il est impératif (je pense) que nous ayons un site qui présente une carte des chatons avec l’état de chacuns de nos services.
J’ai entendu parlé de celui de framasoft mais c’est un état mise à jour manuellement par les admin. sys … donc pas vraiment tip top.
De plus c’est quand même la meilleure solution pour connaitre l’état des services de son chatons, même à titre individuel, à moins d’avoir un compte chez Grafana ou autre pour tester les services qui sont down ou up.
Il faudrait pouvoir monter cet outil réparti (la base dupliquée d’état et / ou d’incidents) sur tout les chatons, tout le monde dispose de l’info à l’instant t et ce sur l’ensemble de la grille de services que nous proposons tous.
Avant de mettre en place un site sur l’état des services, encore faudrait il savoir ce qu’on attend d’un CHATONS.
De mon petit point de vue de mec qui vient plus au réunion et qui suit l’actualité en dents de scie :
Un CHATONS n’est pas forcément ouvert à tous
Un CHATONS peut proposer plusieurs services ou un seul
Un CHATONS peut ouvrir ou supprimer un service comme bon lui semble
Heu c’est pas une critique hein ! (attention @pyg je te vois venir à 2 bornes), c’est un état de fait, et c’est tout à fait respectable.
Mais partant de ce principe, il est difficile de faire un « classement » ou même un « état » des services…
Le mieux reste ce qu’a proposé Framasoft : Pour chaque service, une page indiquant chez quel CHATONS aller…
cela n’empêche pas que chaque CHATONS ait les services que bon lui semble.
ce serait du style que l’on est un format ouvert d’échange de l’état de nos services (ou du service) que nous proposons, le tout mis dans une base répliquée entre tous (avec une fréquence qui reste à définir).
On aurait donc un monitoring (pas au sens Grafana, Zabbix, Centreon ,Ngios etc hein : du bcp plus light , un ping, un test du service et hop mais automatisé ) entre nous, sans histoire de classement.
Et si je ferme le service mail de ilinux, hop il disparaît de la base des services à monitoré.
Après je considère l’hébergement CHATONS comme un service ( à but non lucratif pour ma part mais rien n’empêche ceux qui souhaitent d’en vivre) qui se doit d’être transparent donc franchement si j’ai des pannes hardware, logiciels , attaques , des indispo : ben je le dits et l’écris, je n’ai aucun souci avec ça.
Ça se trouve cela existe déjà … mais voilà l’idée que je m’en fait : car comment faire en auto-hébergé pour se monitoré tout seul , il faut absolument avoir le test en dehors de l’infra pour tester … l’infra ?