Monitoring des disques

cquest · Août 29, 2019, 11:16

J’utilise smartmontools et son daemon pour surveiller sur chacune de mes machines l’état SMART des disques et lancer régulièrement des tests SMART. En cas d’anomalie il envoie un mail ce qui aujourd’hui m’a permis de détecter un disque défectueux dans une grappe RAID.

Je n’ai pas trouvé d’outil (libre, simple et léger) permettant de surveiller un parc de disques répartis sur plusieurs machines
Je commence à avoir un certain nombre de disques en fonctionnement et comme je compte spécialiser mon futur chaton dans le stockage ça me sera à minima utile voire indispensable.

Est-ce que quelqu’un.e connaitrait un tel outil ?

anon6747921 · Septembre 8, 2019, 6:17

tu tombes bien!
Jadjay d’alolise m’a glissé à l’oreille que … Grafana avec influxdDB ca marche du feu de dieu : il avait raison !!!
Je suis en train de le mettre en prod pour mon hébergeur. Techniquement ça tournedéjà ici, par contre comme pour toutes supervisions, je dois faire le cahier des charges …
Quoi « monitorer » … et pour mdadm et smart sont CAPITAL)

anon6747921 · Septembre 9, 2019, 2:46

tu pourrais me contacter pour qu’on envisage , si tu es ok, de se partager les taches pour mettre en place les graphes … et pourquoi pas faire un monitoring croisé … je sais plus ou j’ai lu ca ?

pierre · Octobre 11, 2019, 8:48

On parle de croisé ici aussi https://talk.libreho.st/t/new-generation-status-page/112

Sinon, nous on est sur du prometheus+grafana, très content aussi.

Sur la v1 de notre infra, j’ai un graph avec tout, si ça vous intéresse, je pourrais le partager.

status de borg backup
raid
smarterrors
smart cron (short & long)

Screenshot_2019-10-11%20General%20-%20Grafana

Mes scripts pour smart sont ici
https://lab.libreho.st/libre.sh/docker/smartmontools/blob/master/smartmon-prom

Si vous avez des questions, n’hésitez pas!

anon6747921 · Octobre 11, 2019, 10:30

merci pierre.
j’ai pas trop le temps de bûcher grafana, mais ton taf est précieux .
a l’arrache j’ai fait un rapport journalier par mail de mdam, smart, et ceph. plus le démon smart qui crie si un disque est défectueux : donc de base tu as déjà des alertes mail avec /etc/smart.conf.

anon6747921 · Octobre 11, 2019, 11:14

petite critique sur ton script : évites les while et for.
en système on évites les bloucles : tu peux bloquer une prod. avec une boucle qui deconne.
je posterai mes scripts de backup pour montrer l’idée.
sinon super cool.

par contre tu fais comment pour remonter tout ça dans grafana, tu balances ça dans la de données influxdb ? ou via prometheus ? ( ou dans le script ?)

pierre · Octobre 12, 2019, 6:56

Le script export tout dans un fichier text.
Et ensuite le node-exporter du noeud, se fait scrape par prom.