في أي system كبير بيبقى عندك المعادلة الصعبة دي: إزاي تعطي المستخدم أداء عالي وفي نفس الوقت ما تصرفش كتير على resources مش محتاجها؟ الحل بيبدأ من إنك تراقب الـ system صح.
جوجل في كتاب Site Reliability Engineering (SRE) اقترحت ٤ مؤشرات أساسية وسَمّتهم: The Golden Signals. الإشارات دي بقت الأساس لأي observability strategy ناجحة.
الإشارات الأربعة:
1️⃣ الـ Latency (سرعة الاستجابة)
قد إيه الـ request بياخد وقت عشان يرجع. أي زيادة هنا معناها إن المستخدم هيحس ببطء، وده بيبقى في الغالب نتيجة نقص في الموارد.
2️⃣ الـ Traffic (حجم الطلبات)
كمية الـ requests اللي داخلة. متابعة الـ traffic بتخليك عارف إمتى محتاج تزود موارد أو تعمل scaling.
3️⃣ الـ Errors (معدّل الأخطاء)
النسبة المئوية للـ requests اللي فشلت، سواء أخطاء exceptions أو responses غلط أو data بايظة.
4️⃣ الـ Saturation (درجة التشبع)
قد إيه الـ system مستهلك موارد زي CPU أو Memory أو Network. لما يقرّب من التشبع، الطلبات الجديدة هاتبوظ الأداء وهاتبقى أبطأ.
💡 ليه الأربع إشارات دول مهمين؟
لأنهم بيساعدوك تحقق التوازن بين الأداء والتكاليف:
- لو عملت over-provisioning: هتدفع فلوس على موارد مش مستخدمة بكفاءة.
- لو عملت under-provisioning: هاتوفر فلوس لكن الأداء هايقع والخدمة والمستخدمين هيتأثروا.
المتابعة الصح للأربع إشارات دي بتخليك تلاقي المشاكل أسرع، تحافظ على استقرار الـ systems، وتقلل التكاليف من غير ما تضحّي بالأداء.