Supervision / Monitoring entre chatons

proposition
solidaire
#1

Ayant été amené à faire de la supervision d’URL récemment et le problème de superviser ses sites en local, je propose que les chatons qui seraient intéressés pour faire des échanges de supervision (et donc améliorer sa dispo) se mettent en contact ici (pour finir en MP / mail / Matrix / XMPP…)

Pour Nomagic (et à priori Alolise) par exemple, on peut prendre jusqu’à une dizaine de checks type URL pour 2-3 chatons (l’idée étant que chaque chaton supervise 2-3 autres chatons, on aurait donc un même chaton supervisé par 2 ou 3 chatons différents, potentiellement contacté sur des adresses courriel différent, maximisant les chances d’être alerté en cas de problème).

Il s’agirait de checks simples testant une URL en attendant un retour HTTP 200/OK et contrôlant aussi le nombre de jour restant pour la valider du certificat SSL associé.
En cas d’alerte, un mail est envoyé au bout de 15 minutes d’alerte (par défaut).

On pourrait aussi discuter de checks de type email si besoin.

#2

CHA’lut ( han! Personne ne l’avait jamais faite, je suis un humor master ! )

Je suis d’accord avec l’intégralité de ton mail, sauf sur 1 point :

  • le temps d’alerte,

    Je ne crois pas me tromper en supposant que nos infrastructures ne
    sont pas des modèles 4-9 (99,99%), il ne sera donc pas rare d’avoir
    un bitoniau qui frotte quelque part et pendant au moins un quart
    d’heure,

    Sachant que de toute façon, l’alerte bigophone s’enclenchera en
    moins de 2 minutes si un quelconque quidam passe par là avec en
    mémoire ou dans son smartphone le numéro de l’infortuné
    administrateur système,

    N’ayant aucune envie de voir ma belle boite mail - archivée avec
    soin - s’écrouler et gémir sous le poids de faux positifs et de
    signaux périodiques qui tombent en marche sous l’effet d’un
    éternuement un peu fort à quelques centaines de mètres.

Il est donc cruciale que le destinataire des mails soit à même de
choisir lui même la temporalité de l’envoi des mails, sa répétition,
ainsi que l’information de reprise, et ce service par service, en
l’absence il ne s’agira que d’un service de SPAM qui génèrera trop
d’alerte pour que celles-ci soient prises au sérieux #tropalertetuealerte

Cordialement,

#3

Oui je suis bien évidemment d’accord pour que le chaton supervisé définisse ses préférences de temps d’alertes / période de renvoi (pour les supervisions qui gère les mails de rappel).

#4

Si vous cherchez un tout petit outil sympathique pour faire de la supervision:

Bon à la base c’est à utiliser dans un yunohost mais ça s’adapte assez facilement.

Le même concept existe en bash aussi, avec une base redis:

#5

Bonjour,

Je serai intéressé de participer a cette supervision coopérative inter-chatons, pour le chaton colibris, intéressé aussi de savoir ce que vous utilisez.

Pour notre part, on explore Monit, Munin et Netdata, mais pour l’instant les alertes c’est pas encore super bien configuré (on reçoit juste des mails)

#6

Chez Alolise on utilise Sensu pour la supervision, avec la conf gérée via Ansible, et les notifs par mail également.
Sensu fait le boulot pour nos besoins, mais avec l’abandon de la version ruby et les changements à prévoir pour passer à la version go, je me tâte à essayer autre chose.

#7

pas encore un chatons mais carrément intéresssé, cela rejoint la proposition que j’ai faite en tentant de lancer une perche pour mutaliser nos admins sys. surtout lors des vacances …

#8

De mon coté, j’utilise Zabbix avec à la fois une supervision serveurs (cpu, mémoire, espace disque, bande passante) mais aussi du web (statut, contenu, vitesse). Ça envoi du mail en cas de problème et du SMS quand c’est important.
Il est possible d’ajouter d’autres accès et de créer des groupes. Ces groupes contiennent des hôtes (les serveurs) qui sont managés par l’administrateur affecté au groupe. Un hôte va donc pouvoir être monitoré et on peut aussi lui affecter des scénarios web.
La seule contrainte serait d’installer un agent Zabbix (aptitude install zabbix-agent) et de l’affecter à mon serveur.

#9

Je suis pas sûr de comprendre la dernière ligne. C’est sûrement à cause du changement de conjugaison (imparfait, après une présentation faite au présent qui décrit la solution). On ne parle pas d’installer un agent Zabbix sur l’infra du chaton opposé, si ?
Pas que ce soit impossible, mais mon idée est plus sur une ligne minimum ‘y a pouls’ (l’URL répond en HTTP 200 / le mail test est accepté sur l’authentification), qu’une redondance complète de supervision.
Bien que ça puisse bien évidement se discuter entre chatons…

#10

“On ne parle pas d’installer un agent Zabbix sur l’infra du chaton opposé, si ?”, on parle bien de ça mais ça n’est pas nécessaire si on veut minimiser la supervision et se limiter à des scénarios web.

#11

ok, effectivement si certains chatons souhaitent le proposer ou en bénéficier il est bon de le faire savoir.

#12

Je ne suis pas encore chaton, mais j’ai déjà toute une infrastructure de monitoring (plus précisément, j’ai un serveur sur lequel “je vis” et tout y est fait pour que je voie immédiatement s’il a des problèmes, et je monitore mes autres serveurs depuis ce serveur), web, mail envoyés/reçus, ressources, etc.

Je peux ajouter sans problème des ressources externe à monitorer. Si elles sont contactables de l’extérieur (url, port ouvert, ping, etc.) je n’ai besoin que d’un moyen de contact pour prévenir des problèmes (xmpp, mail, webhook, sms).

Si elles sont internes (process CPU par exemple) il y aura un programme à installer localement qui aurait pour rôle de vérifier les informations puis les envoyer régulièrement à mon serveur qui s’occupe ensuite de vérifier que tout va bien et prévenir quand il y a un souci.

C’est assez souple et chaque ressource peut être configurée indépendemment pour éviter d’être submergé d’alertes.

(je ne suis pas contre de la redondance sur mon monitoring, mais je suis suffisamment tranquille d’esprit avec l’état actuel de ce que j’ai mis en place)