ما هو نظام تجاوز الفشل؟ كيف يعمل + الحلول
نشرت: 2023-09-22الشركات التي تحتاج إلى معاملات عبر الإنترنت لا يمكنها تحمل أعطال الخادم. ونتيجة لذلك، تبحث هذه الشركات عن طرق لإنشاء إجراء آمن من الفشل يحافظ على بياناتها آمنة حتى في حالة انهيار الخادم. إحدى هذه الأساليب هي تجميع تجاوز الفشل.
يمكن التحكم في تجميع تجاوز الفشل من خلال حلول موفر نظام اسم المجال المُدار (DNS)؛ ومع ذلك، فإن فهم آليتها وميزاتها الرئيسية يمكن أن يساعد في الحد من أي تحديات لتجاوز الفشل.
ما هو تجميع الفشل؟
تعمل مجموعة تجاوز الفشل على مجموعة من خوادم الكمبيوتر لضمان التوفر العالي (HA) أو التوفر المستمر (CA) لتطبيقات الخادم. تضمن هذه التقنية أنه في حالة فشل خادم أو عقدة واحدة، تكون عقدة نظام المجموعة الأخرى جاهزة لتحمل عبء العمل دون انقطاع.
يحافظ هذا الأسلوب على أعباء عمل الخادم لديك قابلة للتطوير ومتاحة. تعتمد العديد من برامج الخوادم الرئيسية، مثل Microsoft Exchange و Microsoft SQL Server و Hyper-V ، على نظام تجميع تجاوز الفشل لحماية نفسها.
تستخدم بعض مجموعات تجاوز الفشل خوادم فعلية، بينما يستخدم البعض الآخر الأجهزة الافتراضية (VMs) . يختار الجميع نوع المجموعة التي يحتاجونها بناءً على متطلبات تطبيق الخادم الخاص بهم.
تتكون المجموعة من عقدتين أو أكثر تتبادل البيانات والبرامج لتتم معالجتها من خلال الكابلات المادية أو شبكة آمنة متخصصة. يمكن استخدام تقنية التجميع من عدة أنواع لموازنة التحميل والتخزين والحوسبة المتزامنة أو المتوازية. في بعض الحالات، يتم دمج مجموعات تجاوز الفشل مع تقنيات التجميع الإضافية.
تتمثل الوظيفة الأساسية لمجموعة تجاوز الفشل في توفير CA أو HA للتطبيقات والخدمات. تتيح مجموعات CA، المعروفة أيضًا باسم مجموعات تحمل الفشل (FT)، للمستخدمين النهائيين الاستمرار في استخدام التطبيقات والخدمات حتى في حالة فشل الخادم. قد ترى انقطاعًا قصيرًا في الخدمة بسبب مجموعات HA، ولكن يمكن للنظام التعافي دون فقدان البيانات أو التوقف لفترة قصيرة.
ما سبب أهمية تجميع تجاوز الفشل؟
باستخدام نظام مجموعة تجاوز الفشل، يمكنك إصلاح العقد غير النشطة دون إيقاف تشغيل قاعدة البيانات الخاصة بك، وتجنب مخاوف التوقف أثناء إصلاح الخوادم المعطلة بسرعة. علاوة على ذلك، في حالة فشل الأجهزة، تقوم هذه التقنية بإنهاء قاعدة البيانات لحماية العقد النشطة.
تعمل مجموعة تجاوز الفشل أيضًا على أتمتة عملية استعادة البيانات في حالة حدوث فشل. وهذا يقلل من اعتمادك على طاقم تكنولوجيا المعلومات (IT) ويسمح لخوادمك بالتعافي بسرعة. كما أنه يوفر أيضًا توفرًا ممتازًا لمجموعة لغة الاستعلام المنظمة (SQL) مع الحد الأدنى من وقت التوقف عن العمل. تحافظ وظيفة تجاوز الفشل التلقائي لتجميع تجاوز الفشل على وظيفة قاعدة البيانات الخاصة بك، حتى في حالة حدوث عطل في الأجهزة.
كيف تعمل مجموعات تجاوز الفشل؟
يتكون تجميع تجاوز الفشل من عمليتين أساسيتين، HA وCA، لتطبيقات الخادم.
بينما تحاول مجموعات تجاوز فشل CA الوصول إلى نسبة توافر 100%، تسعى مجموعات HA إلى الوصول إلى نسبة 99.999%، والمعروفة عمومًا بالتسعات الخمس. لا يزيد إجمالي وقت التوقف عن العمل عن 5.26 دقيقة كل عام. تتمتع مجموعات CA بتوافر أعلى ولكنها تتطلب المزيد من الأجهزة لتشغيلها، مما يزيد من تكلفتها الإجمالية.
مجموعات فشل الفشل عالية التوفر
مجموعة التوفر العالي عبارة عن مجموعة من أجهزة الكمبيوتر المستقلة التي تتشارك في الموارد والبيانات. تتمتع عقد مجموعة تجاوز الفشل بإمكانية الوصول إلى مساحة التخزين المشتركة. يتم أيضًا تضمين رابط المراقبة في المجموعات عالية التوفر للتحقق من نبضات الخوادم الأخرى أو صحتها. نبضات القلب عبارة عن شبكة خاصة تتم مشاركتها فقط بواسطة العقد الموجودة في المجموعة. لا يمكن الوصول إليه من الخارج.
في أي نقطة، تكون عقدة واحدة على الأقل في المجموعة نشطة، وتكون واحدة على الأقل خاملة أو خاملة.
في الترتيب الأساسي المكون من عقدتين، إذا فشلت العقدة 1، تتعرف العقدة 2 على الفشل عبر اتصال نبضات القلب وتقوم بتكوين نفسها كعقدة نشطة. يضمن برنامج التجميع على كل عقدة اتصال العملاء بعقدة نشطة.
قد تستخدم عمليات التثبيت الأكبر حجمًا خوادم مخصصة لإدارة المجموعة. يرسل خادم إدارة المجموعة دائمًا إشارات نبضية لتحديد أي عقد فاشلة، وإذا كان الأمر كذلك، لإخبار عقدة أخرى ببدء العمل.
تتعامل بعض أدوات برامج إدارة المجموعة مع HA للأجهزة الافتراضية عن طريق تجميع الأجهزة والخوادم في مجموعة. إذا فشل المضيف، فسيقوم مضيف مختلف باستئناف تشغيل الأجهزة الافتراضية.
كنقطة فشل واحدة محتملة، يمثل التخزين المشترك خطرًا. ومع ذلك، فإن الجمع بين مجموعة متكررة من الأقراص المستقلة 6 و10 - المعروفة أيضًا باسم RAID 6 وRAID 10 - يمكن أن يساعد في الحفاظ على الخدمة حتى في حالة فشل محركي أقراص ثابتة.
قد تكون الطاقة الكهربائية نقطة فشل أخرى إذا كانت جميع الخوادم متصلة بنفس الشبكة. إن تزويد كل عقدة بمصدر الطاقة غير المنقطع (UPS) الخاص بها يحافظ على حمايتها.
مجموعات تجاوز فشل التوفر المستمر
على عكس نموذج HA، تشتمل المجموعة المتسامحة مع الأخطاء على العديد من أجهزة الكمبيوتر التي تشترك في نسخة واحدة من نظام تشغيل الكمبيوتر (OS) . يتم أيضًا تنفيذ أوامر البرنامج المعطاة لنظام واحد على الأنظمة الأخرى.
تصر CA على أن المنظمة تستخدم أجهزة كمبيوتر منسقة ووحدة UPS احتياطية. يحتاج CA إلى نسخة طبق الأصل يمكن الوصول إليها دائمًا وشبه مثالية للنظام الفعلي أو الظاهري الذي يقوم بتشغيل الخدمة. يُعرف نموذج التكرار هذا باسم 2N.
يمكن لأنظمة CA التعويض عن مجموعة واسعة من الأخطاء. قد يحدد نظام التسامح مع الأخطاء وجود خلل في:
- محرك القرص الصلب
- وحدة المعالجة في الحاسوب
- نظام فرعي للإدخال والإخراج (I/O)
- مصدر طاقة
- أحد مكونات الشبكة
قد يتم اكتشاف نقطة الفشل على الفور، ويمكن لمكون أو طريقة النسخ الاحتياطي أن تحل محلها على الفور دون تعطيل الخدمة التالية.
يمكن لبرنامج التجميع توصيل خادمين أو أكثر للعمل كخادم ظاهري واحد أو إنشاء تكوينات بديلة مختلفة لمجموعة تجاوز فشل CA. على سبيل المثال، في حالة فشل أحد الخوادم الظاهرية، تستجيب الخوادم الأخرى عن طريق إزالة الخادم الظاهري مؤقتًا من نصاب الكتلة. يقوم الخادم الظاهري بعد ذلك بإعادة توزيع العبء عبر الخوادم الأخرى حتى يصبح الخادم المعطل جاهزًا لإعادة التشغيل.
يعد خادم الأجهزة المزدوج مع نسخ جميع المكونات المادية بديلاً لمجموعات تجاوز فشل CA. يقومون بالحساب بشكل منفصل ومتزامن على منصات الأجهزة المختلفة ويتزامنون باستخدام عقدة مخصصة تراقب النتائج من كلا الخادمين الفعليين. ورغم أن هذا الحل يوفر الحماية، إلا أنه قد يكون أكثر تكلفة.
ميزات تجميع تجاوز الفشل
تستخدم العديد من المؤسسات نظام تجميع تجاوز الفشل للتطبيقات ذات المهام الحرجة. وذلك لأن الخصائص التالية تجعل من تجميع تجاوز الفشل أسلوبًا مهمًا.
- قابلية التوسع : نظرًا لأن نظام مجموعة تجاوز الفشل يعتمد على مجموعة من المجموعات المتعاونة لمنع فشل الخادم، يمكنك بسهولة ويسر التوسع حسب الحاجة عن طريق إضافة مجموعات جديدة.
- الاستقرار: تتصل الخوادم المجمعة عبر الأسلاك. لا يزال بإمكان المجموعات المتبقية تقديم الخدمة حتى في حالة فشل واحدة أو أكثر بسبب عوامل خارجية.
- المراقبة في الوقت الفعلي: تتم مراقبة العقد العنقودية باستمرار للتأكد من أنها تعمل بشكل صحيح. عند إعادة تشغيل المجموعة أو نقلها إلى عقدة أخرى.
- وحدة التخزين المشتركة للمجموعة (CSV): توفر هذه الميزة مساحة اسم متسقة وموزعة للعقد لاستخدامها أثناء العمل مع وحدة التخزين المشتركة. من الضروري الحفاظ على تشغيل تطبيقات الخادم دون انقطاع من البداية إلى النهاية.
أنواع مجموعات الفشل
لقد حدثت تطورات كبيرة في نظام تجميع تجاوز الفشل في العقد الماضي، حيث تقدم العديد من المؤسسات الآن نسختها الخاصة من حلول التجميع. تم تفصيل بعض خدمات المجموعة الأكثر شيوعًا هنا.
مجموعات تجاوز الفشل لبرنامج VMware
يوفر VMware العديد من تقنيات المحاكاة الافتراضية لمجموعات VM. تقوم بنية CA الخاصة بـ vSphere vMotion بتكرار جهاز VMware الظاهري وشبكته بدقة بين شبكات مراكز البيانات الفعلية.
يوفر VMware vSphere HA، وهو منتج ثانٍ، HA لأجهزة VM عن طريق تجميعها ومضيفيها في مجموعة لتجاوز الفشل تلقائيًا. بالإضافة إلى ذلك، لا يعتمد البرنامج على مكونات خارجية مثل DNS، مما يقلل من نقاط الفشل المحتملة.
مجموعة تجاوز فشل خادم Windows
تعزز طريقة مجموعة تجاوز فشل خادم Windows (WSFC) إنشاء خوادم تجاوز فشل Hyper-V. بين عامي 2016 و2019، ازدادت شعبية هذه الإستراتيجية بين مستخدمي Microsoft Windows. يسمح WSFC بمراقبة المجموعة ويوفر آلية تجاوز الفشل اللازمة تلقائيًا. في حالة فقدان الخادم، يقوم WFSC بنقل المجموعات إلى عقدة منفصلة أو يحاول إعادة تشغيلها. بالإضافة إلى ذلك، توفر تقنية CSV الخاصة بها مساحة اسم موزعة تسمح لعدة عقد بمشاركة الذاكرة.
خادم قاعدة البيانات
يحتوي منتج Microsoft هذا، الذي تم تقديمه مع SQL Server 2017، على حلول HA قوية تستخدم تقنية WSFC. تعتبر مكونات خادم SQL موارد نظام المجموعة WSFC في هذا السياق. لقد تم دمجها بشكل أكبر مع الموارد الأخرى المعتمدة على WSFC. ونتيجة لذلك، يتمتع WSFC بسلطة تحديد وتوصيل الأوامر لإعادة تشغيل مثيل خادم SQL أو نقل مثيلات مثل تلك إلى عقدة جديدة.
ريد هات لينكس
بخلاف Microsoft، يأتي موردو أنظمة التشغيل الآخرون مع حلول مجموعة تجاوز الفشل الخاصة بهم. على سبيل المثال، يمكن لعشاق Red Hat Enterprise Linux (RHEL) استخدام امتداد HA ونظام ملفات Red Hat العالمي (GFS/GFS2) لإنشاء مجموعات تجاوز فشل HA. يتم دعم المجموعات الممتدة ذات المجموعة الواحدة والتي تغطي العديد من المواقع والمجموعات متعددة المواقع التي تتحمل الكوارث . يتم استخدام النسخ المتماثل لتخزين بيانات شبكة منطقة التخزين (SAN) بشكل شائع في مجموعات متعددة المواقع.
تطبيقات تجميع الفشل
تسهل هذه الآلية القوية التطبيقات التالية في الوقت الفعلي.
توافر التطبيقات ذات المهام الحرجة.
يجب أن تحتوي أجهزة كمبيوتر معالجة المعاملات عبر الإنترنت (OLTP) على أنظمة مقاومة للأخطاء. يتم استخدام OLTP، الذي يتطلب توفرًا كاملاً، في أنظمة حجز شركات الطيران، وتداول الأسهم الإلكتروني، والخدمات المصرفية عبر أجهزة الصراف الآلي.
تستخدم العديد من الصناعات، مثل التصنيع والشحن والبيع بالتجزئة، مجموعات CA أو أجهزة كمبيوتر مقاومة للفشل في التطبيقات المهمة. تعتبر التجارة الإلكترونية وإدارة الطلبات وأنظمة ساعة وقت الموظفين من الأمثلة.
غالبًا ما تكون المجموعات ذات التوفر العالي مقبولة لتجميع التطبيقات والخدمات التي تتطلب وقت تشغيل لمدة خمس ساعات فقط.
الإغاثة في حالات الكوارث
يستفيد التعافي من الكوارث أيضًا من تجميع تجاوز الفشل. يوصى بشدة باستضافة خوادم تجاوز الفشل في مواقع بعيدة لأن كارثة مثل الحريق أو الفيضان تؤدي إلى تدمير جميع الأجهزة والبرامج المادية.
تم تضمين نسخة التخزين المتماثلة، وهي تقنية تقوم بتكرار وحدات التخزين بين الخوادم للتعافي من الكوارث ، في Windows Server 2016 و2019. تجاوز الفشل الممتد هو ميزة تقنية تتيح لمجموعات تجاوز الفشل أن تمتد إلى موقعين.
يمكن للمؤسسات نسخ البيانات عبر مراكز مختلفة عن طريق توسيع مجموعات تجاوز الفشل. إذا وقعت مأساة في موقع واحد، فسيتم الاحتفاظ بجميع البيانات على خوادم تجاوز الفشل في المواقع الأخرى.
النسخ المتماثل لقاعدة البيانات
وفقًا لمايكروسوفت، تم إطلاق WSFC لأول مرة في Windows Server 2016 لحماية الخدمات "ذات المهام الحرجة"، مثل قاعدة بيانات خادم SQL وخادم اتصالات Microsoft Exchange.
للنسخ المتماثل لقاعدة البيانات ، يوفر البائعون الآخرون تقنية مجموعة تجاوز الفشل. على سبيل المثال، تحتوي MySQL Cluster على طريقة نبضات القلب التي تتيح الكشف السريع عن الفشل للعقد الأخرى في المجموعة، غالبًا في أقل من ثانية حرفية، دون انقطاع الخدمة للعملاء.
يمكن نسخ قواعد البيانات إلى مواقع بعيدة باستخدام إمكانية النسخ المتماثل الجغرافي.
فوائد مجموعات الفشل
تتمثل فكرة مجموعات تجاوز الفشل في التأكد من أن المستخدمين يواجهون الحد الأدنى من الاضطرابات في الخدمة. ومع ذلك، تتم مناقشة الفوائد الإضافية الأخرى لتجميع تجاوز الفشل أدناه.
- زيادة توافر الموارد: في حالة فشل أحد الخوادم الذكية، فإن الخوادم الأخرى في المجموعة تتحمل العبء. وهذا يوفر الوقت والمعلومات الحاسمة.
- التخصيص الاستراتيجي للموارد: يمكنك توزيع المشاريع بين العقد بأي طريقة تختارها. يؤدي هذا إلى تقليل النفقات العامة حيث أنه ليس كل أجهزة الكمبيوتر مطلوبة لتنفيذ جميع المشاريع في وقت واحد، مما يتيح لك طريقة لاستخدام مواردك بحرية أكبر.
- زيادة قوة المعالجة: المزيد من الآلات، المزيد من الطاقة.
- قابلية توسع أكبر: مع توسع قاعدة المستخدمين وتعقيد التقارير، تتوسع مواردك أيضًا.
- الإدارة المبسطة: التجميع يجعل التعامل مع الأنظمة المهمة أو سريعة التغير أسهل.
القيود المفروضة على تجميع الفشل
على الرغم من أهمية تجميع تجاوز الفشل، إلا أنه يواجه القيود التالية.
- التكوينات المعقدة: يتطلب تكوين مجموعات تجاوز الفشل لنظام التشغيل Windows التعامل مع العديد من الشبكات وبطاقات الشبكة في وقت واحد. ونتيجة لذلك، فإن نشر هذه الطريقة أمر صعب، خاصة بالنسبة للمبتدئين.
- تكامل الأدوات: يجب أن يكون تجميع تجاوز فشل Windows وHyper-V متكاملين بشكل أوثق. عليك ضبط كل واحد منهم لإكمال تجميع تجاوز الفشل بنجاح.
- واجهة الويب: لا توجد واجهة ويب لضبط معلمات المجموعة. للوصول إلى ميزة مدير المجموعة، يجب عليك تسجيل الدخول يدويًا إلى سطح المكتب البعيد.
حلول تجميع تجاوز الفشل: موفري DNS المدارين
من خلال العمل جنبًا إلى جنب مع أنظمة تجميع تجاوز الفشل، يقوم موفرو DNS المُدارون بإعادة توجيه حركة المرور إلى خوادم بديلة أو مراكز بيانات أثناء أحداث تجاوز الفشل، مما يضمن الوصول دون انقطاع إلى خدماتك حتى تتمكن من تحقيق التوفر العالي وتقليل وقت التوقف عن العمل.
أفضل خمسة موفري DNS مُدارين:
- كلاودفلير DNS
- أزور DNS
- إنفوبلوكس نيوس
- WPMU ديف
- مدير DNS
* فيما يلي أهم خمسة برامج رائدة لموفري DNS المُدارين من تقرير شبكة G2's Fall 2023 Grid Report.
تحديث الموثوقية
لقد برز نظام تجميع تجاوز الفشل كخيار موثوق وأساسي للتوفر العالي والتسامح مع الأخطاء داخل البنية التحتية الحالية لتكنولوجيا المعلومات. فهو يوفر عمليات مستمرة على الرغم من فشل الأجهزة أو الصيانة المجدولة عن طريق توزيع أعباء العمل والموارد تلقائيًا عبر العديد من العقد المتصلة بالشبكة. تمنحك هذه التقنية طريقة أخرى للتعامل مع الجانب الأكثر أهمية في عملك - مما يجعل تجربة كل عميل آمنة وسعيدة.
إن تعزيز مرونة نظامك لا يضر أيضًا!
ابدأ باستخدام دليل أمان DNS للحصول على استراتيجية نظام قوية.