Y aurait-il parmis vous une personne étant capable d'expliquer CEPH ?

anon6747921 · Avril 4, 2019, 5:28

je suis en train de maqueter sous proxomox et CEPH pour un système de fichier distribué (d’ailleurs je me posais la question de CEPH ou GlusterFS pour des perf. acceptables ?).
C’est prometteur.
Cela tourne mais je n’arrive pas à comprendre la tolérance de panne exact qu’offre cette solution, je maitrise le RAID mais là … c’est nouveau !
je suis configuré ainsi :
3 noeuds proxmox :

core i5,
16 Go,
2xSSD 120Go en raid1 pour proxmox (3 periph /dev/md0, 1 et 2) et les templates voir iso,
2x 500Go HDD … pour les osd.
3 carte reseau par noeuds (un réseau pour les flux métiers, un réseau pour les OSD, un réseau … le backup a voir)

le tout en cluster, 3 moniteurs un par noeuds, 2 osd par noeuds …

ca marche mais je comprends pas la tolérance de panne etc …

Merci a vous

ELF · Avril 4, 2019, 5:50

Bonjour,

La fonction du cluster (stockage - équilibrage de charge - continuité de service) est à installer afin de constituer une grappe de nœuds physiques. Exemple :

BASE : Nœud physique A avec 4 VM serveur web / 1 Nœud physique B avec 4 VM serveur web / Nœud physique C avec 4 VM serveur web

Si tu as configuré la fonction continuité de service sur ton cluster, si le Proxmox A tombe, la redondance se fera sans perte de service sur les serveurs B et C

Pour le stockage distribué, tu peux lire ce post : https://memo-linux.com/proxmox-5-cluster-2-noeuds-avec-un-stockage-replique/

Sinon tu as des formations spécifiques et dans le genre Alphorm est correcte :

https://www.alphorm.com/tutoriel/formation-en-ligne-proxmox-ve-4-1

(6h39min de cours)

https://www.alphorm.com/tutoriel/formation-en-ligne-proxmoxve-3-x

(7h de cours)

PS : les cours sont complémentaires et je n’ai pas d’action chez eux !

@+

anon6747921 · Avril 4, 2019, 8:56

merci elf, je vais lire tout ca.

Edit : pour le cours ecris : deja lu,
les videos c proxmox 3 … je suis sur la 5.3.

Merci quand même, mais je cherche surtout une explication sur ceph.;…

anon6747921 · Avril 4, 2019, 10:43

pour ceux qui veulent calculer l’espace disque avec ceph : http://florian.ca/ceph-calculator/

ici une bonne info …
https://forum.proxmox.com/threads/ceph-3-cluster-with-2-copies-per-object.21142/

Sinon pour le mode de fonctionnement de ceph … pas trouvé

anon6747921 · Avril 7, 2019, 12:30

Une des meilleurs présentation que j’ai trouvé sur le fonctionnement (bas niveau on dira) de CEPH :
je partage …

https://www.youtube.com/watch?v=7I9uxoEhUdY

cquest · Mai 28, 2019, 4:00

J’arrive après la bataille, mais après utilisé Ceph sur un petit cluster proxmox de 3 noeuds, nous avons complètement arrêté car les perfs étaient très mauvaises.
Il faut soit un réseau très rapide (du gigabit ne suffit pas vraiment), soit limiter uniquement ceph au stockage d’archives et de backups ou stockage objet (type S3, swift).

Sous proxmox j’utilise désormais ZFS qui apporte:

snapshots et clones (snapshot qu’on repasse en read/write)
compression
déduplication (si on a de la RAM)
les send/receive (génial !)

Du coup pour promox et les VM/CT cela permet:

la réplication (très rapide, basé sur les send/receive)
les snapshots
la migration quasi instantanée des VM/CT, et en bonus la haute dispo

ZFS est très robuste, conçu dans cette optique. Autre avantage, un mix HDD + SSD permet d’utiliser les SSD en cache de façon transparente.

Mon futur chaton sera basé sur un cluster de 3 serveurs sous proxmox et ZFS comme stockage principal.

pyg · Mai 28, 2019, 4:19

Salut @cquest
Merci de ce retour. On utilise Ceph chez Frama, et notre bien-aimé adminsys semblait plutôt content de Ceph, mais on l’utilise effectivement pour du stockage objet il me semble. Et il me semble que le cluster tombe assez régulièrement. Bref, ça semble aller dans ton sens.

Et impatient de découvrir ton futur chaton

anon6747921 · Mai 28, 2019, 7:30

Merci pour ce retour d’expérience.
Mais … ma prod. est maintenant montée avec du ceph ET des cartes réseaux en gigabit.
Ensuite tu parles de ZFS , le truc pour qui il faut 1Go de RAM par To de data ?
Désolé je ne suis pas assez riche … mes noeuds n’ont « que » 16Go de RAM …
Ensuite je ne vois pas comment Ceph (mais la encore je verrai bien) peut ramer alors que mes disques (OSD) durs sont des plateaux qui crachent à peine du 60Mo/s … mon réseau dédié pouvant sortir du 120Mo /s … par carte avec un switch totalement dédié à Ceph.
Mais tu a peut etre bien raison : on verra bien.

En hardware ca donne ca :
Capture%20du%202019-05-28%2021-32-05

cquest · Mai 29, 2019, 9:55

ZFS a besoin de RAM essentiellement pour la déduplication.

Ce retour d’expérience provient du cluster mis en place pour OSM France.
On avait un lien gigabit séparé, disques mécaniques (1 HDD sur chacun des 3 noeuds du cluster), stockage des containers LXC sur ceph.
Il y avait bien trop de traffic réseau, des latences bien trop importantes (le débit n’est pas le seul élément à prendre en compte)… et énormément d’I/O sur les disques (saturés à 100% en quasi permanence).
On a rebasculé dans un premier temps en stockage local, puis remplacé ceph par un pool ZFS sur chaque noeud et remis les containers sur ZFS et ça va beaucoup mieux depuis.
La copie/synchro des containers prends quelques secondes chaque 15mn et c’est suffisant en terme de sécurité des données pour notre cas.

Ces serveurs sont relativement chargés, les soucis peuvent n’apparaitre qu’à partir d’une certaine charge en I/O.

popi · Mai 29, 2019, 8:24

Merci pour le retour @cquest on réfléchissait depuis un moment à passer à ceph chez Alolise, mais là je crois qu’on va revoir notre copie.

cquest · Mai 29, 2019, 8:38

Je ne veux pas vous dégoûter, il faut bien faire attention à l’usage et comme stockage de containers proxmox c’est clairement pas optimal.

Par contre pour du stockage objet, je le garde dans ma liste d’outils…

anon6747921 · Mai 29, 2019, 9:04

arf arf … je suis en train a de rigoler, enfin pas trop.
Est ce que popi et jadjay … parle CEPH parfois à Alolise ?

Car c’est moi qui vais essuyer les platres on dirait !

anon6747921 · Mai 29, 2019, 9:05

Question avez-vous bien séparé les flux ceph, métier et corosync ? (meme question a cquest !)

cquest · Mai 29, 2019, 9:16

flux séparés:

tout ce qui est externe sur un port ethernet
ceph + corosync (qui bouffe quasiment rien) sur l’autre ethernet

serveurs dédiés OVH… 2 ports, difficile de faire mieux !

Je vais remonter un ceph chez moi pour mon futur chaton et tester en infiniband 40Gbps.

anon6747921 · Mai 29, 2019, 9:17

… ah ok : ceph + corosync sur le meme port réseau , bahhhhhhhhhhhhhhhhhhhhhhhhhh
Sans vouloir faire mon kikou, mélanger le heartbeat du cluster et du flux stockage : meme pas peur ?
Question : tu as regardé mon schém au-dessu , pour le cablage hardware ?
C’est la base quand on monte un cluster … on sépare les flux: stockage, métier ET de la gestion cluster.
chez vmware c le vmkernel, chez proxmox le corsyng , il ya heartbeat , hasuite sur as400 etc etc …

Ne pas mélanger les éfluves.

Mais bon je ne suis pas ecnore monté en charge donc je m’écrase.
Je garde ZFS en option au cas ou : mais ZFs fait du distribué sur le cluster ?

cquest · Mai 29, 2019, 9:20

Pas le choix !

Les serveurs dédiés loués ont rarement plus de 2 ports réseau, là où il en faudrait 3 ou 4 (avec bonding là où c’est utile). Sûr que ça a dû impacter nos perf.

anon6747921 · Mai 29, 2019, 9:23

donc game over pour toi.
je comprend pourquoi les perfs étaient perraves, ton cluster devait devenir dingue et perdre les pédales.
Mais soyons humble peut etre me gourre-je

En tout cas merci de vos experiences, je vous ferrai part de la mienne .

pierre · Octobre 11, 2019, 8:39

Yop!

bien après la bataille aussi On utilise ceph aussi, et très content pour le moment.
Très robuste, on a eu plusieurs galère, mais on a jamais rien perdu, et le cluster était toujours utilisable, sauf une fois, avec 1 petite heure de down.
En gros, on a 3 hosts et chaque host avec 2 NVMe et 2 HDD 10TB. Et 2 cartes réseaux, 1GB et 10GB.

Ca se passe bien Si vous avez des soucis, n’hesitez pas a nous pinguer.

anon6747921 · Octobre 11, 2019, 10:44

chez ilinux aussi hyper content, les upgrade/ajout de disque un régale sous proxmox

Ca se résume à :(avec mon globish )

Open proxmox WEBGUI, then migrate all VM/CT to another node
Down (Stop) and out (Out) an osd (will probably already be in this state for a failed drive)
remove it from the tree and crush map (Destroy) witouth removing partition in the gui
Set cluster ceph in (noout)

STOP NODE NOW !

replace disk, reboot => verify disk presence in BIOS/EFI !
Return to WEBGUI : Node\Ceph\OSD then create new osd : (Create: OSD), choose the good /dev/sdx,
Set cluster ceph from « unset noout » to ==> « Set noout »
Re migrate VM/CT to original node,
Enjoy Ceph rebuild task ! ==> "ceph -w" monitor rebuilding

par contre on est moins riche …
noeuds x 3:2x SSD 120 go en raid1 mdadm, 2 x 2to hdd … 3 cartes intel 1 gb (backup, métiers, ceph ) : corosync sur backup mais c’est pas trop gênant car 99% des backup passe en 2 à 40 secondes … pour l’instant (seul un CT de 200go met 58mn … et je ne sais pas pourquoi)
on est en 3/2 : 3 copie des datas … donc sur nos 12 to, 4 to exploitable

anon6747921 · Octobre 11, 2019, 10:47

l’idéale c 4 cartes réseaux , avec 2 tu vas avoir des merdes niveau corosync quand tu vas avoir une montée en charge sur le lien 1gb.(métiers je suppose ?), 10gb pour ceph … c’est riche, si tu as du disque plateau. Mais bon tu pourras voir venir.