Zugriffsausfälle beim ukrainischen Hosting – wie war das?
Es war „fantastisch“. Zum Beispiel sank die Produktivität der Infrastruktur für 1-3 Minuten und stieg dann schnell wieder an. Diese scheinbar kleine Verzögerung verursachte eine Lawine größerer vorübergehender Verzögerungen und wurde zur Quelle ernsthafter Störungen unserer Geschäftsprozesse.
In dieser konkreten Situation stellte sich das Problem wie folgt dar: Die Ausfälle, die „nur 3 Minuten“ dauerten, verursachten eine riesige Warteschlange in unserer Datenbank, das 1С-System beschädigte in diesen 3 Minuten den Block und setzte alle Dokumente in den Abteilungen und Filialen zurück. Sagen wir einfach, dass wir mit diesem Ergebnis nicht sehr zufrieden waren.
Aus der Sicht eines einzelnen Mitarbeiters erinnerte uns der Vorgang an einen Thriller. Stellen wir uns zum Beispiel vor, dass ein Manager mehrere Frachtbriefe herunterlädt und ein Fehler auftritt; der Manager hat keine Ahnung, ob die Transaktion erfolgreich war oder nicht. Wie seine Kollegen muss er nun alle heruntergeladenen Transaktionen löschen und die Frachtbriefe manuell eingeben. Das war ein langweiliger, ärgerlicher und nutzloser Prozess, der ewig zu dauern schien. Unser monatlicher Umsatz betrug ca. 50.000.000 UAH (ca. 1.233.000 Euro) und durch diese Fehler hätte das Unternehmen bis zu 10 % verlieren können, also ca. 5.000.000 UAH (ca. 123.300 Euro) pro Monat!
Ich möchte keine schlechte Presse verursachen, deshalb werde ich den Namen dieses Hosting-Anbieters nicht nennen.
Unsere Spitzenbelastung liegt bei etwa 700 Dokumenten, die morgens von 9:30 Uhr bis 11 Uhr in Paketen heruntergeladen werden, und noch einmal so viele am Nachmittag – von 15 Uhr bis 17 Uhr. Das sind etwa 15.000 Dokumente pro Tag. Die Dokumente werden gleichzeitig heruntergeladen und durchlaufen verschiedene Bearbeitungsstufen – die Prüfung eines Frachtbriefs kann von 20 (!) Stellen aus durchgeführt werden.
Wir sollten die spezifischen saisonalen Schwankungen solcher Ausfälle bei unserem früheren ukrainischen Anbieter erwähnen: In der Regel traten sie zu Beginn und am Ende des Monats (etwa 10 Tage), in der Monatsmitte (wenn alle ihre Dokumente bei der Rentenkasse einreichen) und am 20sten Tag (Zeitraum für Steuerunterlagen) auf.”
Anmerkung von SIM-Networks:
Solche Verzögerungen treten normalerweise auf, wenn der Server für z. B. 5 Kunden ausgelegt ist: Der Anbieter installiert oft nur 10 Kunden in der naiven Hoffnung, dass diese nicht die gesamte Kapazität in Anspruch nehmen werden, für die sie bereits bezahlt haben. Wir sind der Meinung, dass es keine Rolle spielt, ob der Kunde die gemietete Kapazität nutzt oder nicht – solange er bezahlt, gehört die Kapazität ihm und nur ihm. Wir übergeben das Wort wieder unserem Kunden:
„Wir waren überrascht, dass der Anbieter keine Möglichkeit für die Kunden vorsah, alle Kapazitäten gleichzeitig zu nutzen. Infolgedessen wurden die von ihm garantierten und von uns bestellten und bezahlten Ressourcen nicht bereitgestellt! Es gab keine Ausfälle, wenn unsere „Nachbarn“ ihre Kapazitäten nicht nutzten.
Wir verbrachten viel Zeit damit, dem Anbieter zu beweisen, dass das Problem auf seiner Seite lag: Wir begannen mit dem Monitoring und schrieben jedes Mal Briefe, wenn es zu Ausfällen kam. Erst nach einem Jahr dieses Albtraums war der Provider bereit, ein SSD-Rackmount in seinem Rechenzentrum zu kaufen, „speziell für uns“. Es war noch zu früh, um optimistisch zu sein.
Die Migration unserer Daten auf dieses Rackmount war miserabel. Der Anbieter versprach, die Datenbank innerhalb eines Tages zu übertragen, und zwar über das Wochenende. Als wir am Sonntagabend zu Abend aßen, war die Umstrukturierung des neuen Rackmounts noch nicht abgeschlossen, und wir baten den Anbieter, die Daten wieder dorthin zu übertragen, wo sie sich befanden. Der Provider beharrte darauf, dass das System hochgefahren sei, und teilte uns mit, dass sie die alte Datenbank gelöscht hätten. Der Anbieter entschied sich, die Daten zu löschen, da er der Meinung war, dass die Migration bereits stattgefunden hatte und er sie nicht mehr speichern musste. Mit anderen Worten, sie hatten einfach unsere alte Datenbank gelöscht, bevor das neue SSD-Rackmount überhaupt umstrukturiert war, und wir mussten unser gesamtes Einzelhandelsnetzwerk neu aufsetzen.
Für diesen Notfall haben wir alle Systeme von Backups neu aufgebaut. Die komplette Umstrukturierung unseres "neuen" SSD-Rackmounts dauerte schließlich eine ganze Woche. In dieser Zeit mussten wir mit unserer Backup-Infrastruktur arbeiten, die deutlich langsamer war. Wir müssen Ihnen nicht erläutern, was es für einen Online-Händler bedeutet, wenn das Geschäft eine ganze Woche lang stillsteht.
Wir waren bereit, physische Hardware von diesem Hosting-Anbieter zu mieten. Man sagte uns, dass wir etwa 85.000 US-Dollar benötigen würden und bot uns an, die Ausrüstung selbst zu kaufen und in ihrem Rechenzentrum zu installieren. Daran waren wir natürlich nicht interessiert.
Auf der Suche nach einer Lösung begannen wir, verschiedene Hosting-Anbieter zu testen - sowohl nationale als auch europäische - und stellten einen Unterschied fest.
Für das Herunterladen von 100 Frachtbriefen auf unsere eigenen Server benötigten wir 16 Minuten. Mit 5 Mitarbeitern, die 100 Frachtbriefe herunterluden, dauerte es bis zu 2 Stunden und aus den 16 Minuten wurden 40 Minuten – 1 Stunde.
Auf dem SSD-basierten Hosting unseres vorherigen inländischen Anbieters dauerte derselbe Vorgang 9 Minuten.
Beim SSD-basierten Hosting in einem europäischen Rechenzentrum war alles in etwa 4 Minuten heruntergeladen. Das Hauptproblem, das wir zu lösen versuchten, war die Auflösung der Warteschlangen in der Datenbank, und die Kapazitäten von SIM-Networks halfen uns dabei.
Nachdem wir einige erfolglose, aber sehr nützliche Erfahrungen gesammelt hatten, entschieden wir uns, physische Infrastruktur von einem europäischen Anbieter zu mieten, anstatt virtuelle Kapazitäten zu nutzen. Zunächst haben wir wichtige 1C-Dienste auf die neue Infrastruktur übertragen. Nach dem anfänglichen Erfolg mieteten wir 2 zusätzliche Reserveserver und übertrugen unseren Cluster, der aus einem Dateiserver, Microsoft Exchange usw. bestand. Insgesamt haben wir mehrere Server und ein Rackmount im Rechenzentrum angemietet.