lundi 2 juillet 2012

Connaissez-vous le SCOF, le "Single Cloud of Failure" qui a terrassé Instagram


Si vous avez cherché a prendre des photos avec votre smartphone pour les partager sur Instagram le 30 Juin vous avez peut être pu constater la panne du service pendant plusieurs heures. Et si de dépit vous cous êtes rabattu sur Pinterest pour les partager avec les photos vintages de votre collection de vieux PCs, vous avez peut être eu le même problème.
Quel rapport y a t-il entre Instagram et Pinterest, et aussi Netflix (video à la demande) et Heroku ("Java on the cloud") qui ont été victimes de problèmes d'accès a leurs serveurs ce 30 Juin?


Et bien ce sont toutes des sociétés en forte croissance qui ont besoin d'une grande flexibilité pour provisionner leur énergie informatique et se sont donc tourné naturellement vers le cloud pour cela. Celui d'Amazon en l'occurence, qui héberge une partie de leur capacité dans son centre de données à Ashburn, en Virginie (Etats Unis). Une région où ce 30 Juin de puissantes tempêtes on coupé l'alimentation de près d'un million de citoyens (vents à 80 miles par heure) et malheureusement aussi pris des vies humaines.


Ce datacenter a donc été privé d'électricité pendant six heures provoquant les déboires en série pour ces sociétés. Des orages qui ont coupé l’électricité du réseau de l'opérateur local, mais plus grave, du réseau de secours d'Amazon. Une panne dont la probabilité est très très très faible... mais qui s'est produite!


Elle nous démontre de façon pratique ce qu'est le "SCOF", ce Single Cloud of Failure, ce point central qui peut entrainer le dysfonctionnement d'une partie des services de l'internet (par analogie avec le SPOF - le célèbre Single Point of Failure). 




Qu'est-ce qu'il faut en retenir :
  • que les pannes arrivent, même celles qui sont improbables, et donc que le Cloud n'affranchi pas la DSI d'avoir un PCO/PRA, Plan de Continuité des Opérations et Plan de Reprise des Activités. A minima celui d'informer les clients avec des réseaux alternatifs comme Twitter pour les activités B2C.
  • de répartir si possible sa charge sur plusieurs centres de traitements et non sur un centre unique. C'est ce que propose aussi Amazon avec son "Elastic Load Balancing" mais visiblement il n'a pas fonctionné ou n'a pas été utilisé ou bien paramétré par toutes ces sociétés. Et la les lecteurs assidus de ZDNet auront tout de suite pensé au multi-cloud mis en avant par Pierre Col il y a quelques mois (le multi-cloud)


La bonne nouvelle c'est quand même que les délais de remise en route ont été inférieurs aux 6 heures d’interruption grâce à la bascule sur d'autre centres pour la plupart des grands services. Ce qui amène aussi a un autre enseignement corolaire des deux autres, a défaut de vous lancer dans le multi-cloud, ne retenez pas un prestataire qui n'aurait qu'un seul datacenter.


Et pour terminer, si ce 1er Juillet le signal du Minitel n'a toujours pas été rétabli chez vous et que vous n'arrivez pas à accéder au 3615, c'est normal. Et ce n'est pas lié à la panne du Cloud d'Amazon, le service s'est éteint le même jour mais n'a pas eu besoin d'un orage pour cela. Il a juste été déconnecté en fin de vie (#RIPMinitel).

SHARE THIS

0 commentaires: