Hello,
Dans le cadre d’un projet, un serveur web reçoit une grosse quantité de requêtes HTTP chaque minute. Ces requêtes sont des commandes e-commerces que le serveur doit traiter impérativement (ces requêtes HTTP sont générées par des webhooks Shopify/Woocommerce/Prestashop/…).
Je cherche à rendre cette architecture la plus fiable possible, parce que si le serveur down quelques minutes ou heures, alors je perds toutes les commandes reçues pendant ce temps.
Actuellement, j’utilise un load-balancer qui dispatch les requêtes sur 2 instances. Mais il y a quelques semaines, le prestataire qui manage la base MongoDB derrière ces instances a fait une bêtise, et le système a down 12h sans que je m’en aperçoive (j’ai depuis amélioré ma gestion/notification des erreurs).
Auriez-vous des conseils et des suggestions pour rendre plus robuste ce type de système ?
Ce qui m’angoisse un peu, c’est que plus je rajoute de mécanisme du genre "ça va aider", plus je rajoute de cause de bugs possibles ahah.
Merci d’avance à ceux qui auront des idées bonne journée