Bonjour à tous !
Il semblerait qu’un phénomène touche beaucoup d’acteurs de l’hébergement aujourd’hui, notamment plusieurs du côté du CHATONS. Il s’agit de la mise à mal des forges Git par des crawlers, ou indexeurs d’IA. Nous sommes, chez Deuxfleurs, également impactés. Comme le mode opératoire semble être sensiblement le même partout, nous avons tout intérêt à partager des techniques de contre-mesures communes et à dialoguer sur le sujet. Voici donc un topic dans lequel nous pouvons partager. Je vais ci-dessous répertorier l’ensemble des informations à ma connaissance. Je peux corriger et mettre à jour ce message à chaque rectification, demande, ou apparition d’éléments nouveaux.
Le 17 janvier 2025, Xe Iaso a publié sur son journal personnel un article expliquant que l’indexeur pour IA d’Amazon a un impact majeur sur son instance Gitea, au point de générer un besoin d’achat de nouveau matériel. Une politique stricte sur le robots.txt
n’y change rien. D’abord caché derrière un VPN, le service est de nouveau en ligne derrière un système de preuve de travail fait maison : Anubis.
Le 12 février 2025 nous avons été obligés, chez Deuxfleurs, de configurer des abandons de requêtes à toute la plage d’IP en /13 d’Alibaba, au niveau d’iptables. Notre instance Forgejo subissait un DoS de leur part. Il y a eu des questionnements en interne sur l’intérêt ou non d’appliquer une sanction similaire aux agents homologues de l’ouest, pour ne pas accuser de biais. Nous avons renoncé pour deux raisons : l’abus de nos services par les indexeurs d’Alibaba est à un facteur x10 par rapport aux autres indexeurs, qui eux ne mettent pas en péril notre infrastructure. La deuxième raison est que bannir toute une plage d’IP risque fortement de faire des victimes collatérales, il convient alors de limiter cette pratique au maximum pour préserver les idéaux autour d’internet. Par ailleurs, nous avons fixé les règles iptables de manière temporaire, avec l’espoir que les abus prendraient fin bientôt.
Le 23 février 2025 nous redémarrons, chez Deuxfleurs, notre instance Forgejo, actant ainsi l’arrêt des règles iptables précédemment introduites. Nous instaurons cependant un robots.txt restrictif. Dans un premier temps, cela semble fonctionner, mais il n’est pas encore possible de dire si c’est parce qu’Alibaba a arrêté son indexation, ou si c’est grâce au robots.txt. Ci-dessous le graphe d’utilisation du processeur sur la machine hébergeant notre Forgejo, la différence est nette entre avant et après cette date.
Le 2 mars 2025, sdomi annonce sur le fédivers avoir bloqué l’intégralité des IP d’Alibaba Cloud, pour la même raison que chez Deuxfleurs : son instance Forgejo se voit surutilisée à cause d’eux et sature régulièrement son système à base de Ryzen 9 7950X3D. Ils ont provoqué la génération de 9Go de journaux et 230Go d’archives. Le même jour, TooTech répond en expliquant qu’il subissait le même phénomène, et a mis en place des redirections occasionnelles vers des pages abordant le sujet des manifestations de la place Tian’anmen. Suite de quoi les indexeurs auraient disparu après 12 heures.
Le 4 mars 2025, Jade Ellis annonce sur son journal que son instance Forgejo subit des abus de la part d’indexeurs depuis le 19 février. Elle explique que mettre en place un robots.txt plus strict a résolu le problème.
Le 8 mars 2025, l’instance Forgejo de Deuxfleurs a complètement rempli son disque et a une forte charge processeur, à cause encore une fois des indexeurs IA d’Alibaba. Ils provoquent des générations d’archives en boucle. Ceux-ci se seraient donc réveillés de nouveau et ne respecteraient pas le robots.txt. Nous remettons en place des règles iptables au niveau du service Forgejo similaires à celles du 12 février (mais concernant deux /16 au lieu de tout un /13, cela dit), et rajoutons une règle au niveau du serveur Nginx faisant office de proxy inverse, pour ignorer les requêtes vers les chemins d’archives.
Le 8 mars 2025, le même jour par coïncidence, la @lacontrevoie annonce sur le fédivers avoir son instance Git mise à mal par une vague de robots chinois utilisant jusqu’à 3500 adresses IP différentes chaque minute.
Voilà l’ensemble des éléments connus à ce jour. N’hésitez pas à renvoyer les gens n’étant pas au courant du problème vers ce topic pour qu’ils puissent se renseigner.