على مدار العقد الماضي ، تركزت أبنية السحابة الفائقة على أساطيل الخادم x86 التي يمكن التنبؤ بها والمحسّنة لحساب الأغراض العامة. تلك الحقبة تنتهي. مع الذكاء الاصطناعي التوليدي ، والنماذج الأساسية ، والمحاكاة ، والتحليلات المتسارعة التي تستهلك الآن كميات غير مسبوقة من الحوسبة ، hyperscalers تتحول بسرعة نحو GPU-الهندسة المعمارية الأولى حيث وحدات معالجة الرسومات والمسرعات والسيليكون المخصص ليست إضافات ثانوية، ولكن المحركات الأساسية للحساب.
ويعيد هذا التحول تشكيل تصميم مراكز البيانات والاقتصاد وسلاسل التوريد والنظم الإيكولوجية للبرمجيات على نطاق عالمي. إليك كيف تستعد hyperscalers لمستقبل GPU الأول ، وماذا يعني هذا لبقية الصناعة.

إعادة تصميم مراكز البيانات لوحدة معالجة الرسومات عالية الكثافة المجموعات
تاريخيا، تم تصميم الرفوف حول وحدات المعالجة المركزية الحرارية - نادرا ما تتجاوز 8 - كيلوواط لكل رف.
مجموعات الذكاء الاصطناعي الحديثة تتجاوز 30 كيلو واط ، 60 كيلو واط ، وحتى 100 rack كيلو واط لكل رف.....
Hyperscalers يستجيب مع:
التبريد السائل كافتراضي
-
حلقات لوحة باردة مباشرة إلى رقاقة لعقد GPU
-
مبادلات حرارية للأبواب الخلفية للأساطيل الهجينة
-
تحسين الهياكل الأساسية لمرافق المياه
-
وحدات توزيع المبردات (CDUs) في تصاميم على مستوى الصف
القرون المتخصصة عالية الكثافة
-
صفوف GPU فقط مع تقسيم المناطق الحرارية الصارمة
-
ممرات منفصلة لتدفق الهواء
-
الطاقة والتبريد مستقلة عن قاعات الحوسبة للأغراض العامة
تخطيط القدرة الحرارية
مجموعات منظمة العفو الدولية الآن محرك الأقراص اختيار الموقعوليس CPUs.
قدرة التبريد يحدد:
-
كم عدد وحدات معالجة الرسومات التي يمكن نشرها
-
حيث يمكن وضعها
-
كيف يمكن أن تتوسع المجموعات بسرعة
إعادة اختراع مركز البيانات توصيل الطاقة
يمكن لحامل واحد من مسرعات AI رسم 50+ كيلو واطمما تسبب في ضغط هائل على البنية التحتية للطاقة.
يتفاعل Hyperscalers من خلال:
بناء الجامعات الفرعية المجاورة
ضمان توافر عدة مئات من ميغاواط لتوسيع قدرة وحدة معالجة الرسومات.
الاستخدام الكثيف لتوزيع HV زائدة
يضيف المشغلون:
-
110 كيلو فولت – 230 كيلو فولت
-
محطات التحويل المتقدمة
-
تصاميم مرونة الشبكة
تنظيم السلطة rot خنق
تخضع مجموعات GPU إلى:
-
قبعات السلطة الديناميكية,
-
نقل الحمولة,
-
الاستدلال المقرر،
-
وحتى إخلاء عبء العمل الحراري.
GPU الاستراتيجية المشتريات وخطوط أنابيب السيليكون
ساحة المعركة الجديدة هي إمدادات السيليكون.
GPU العدوانية ما قبل الشراء
hyperscalers الآن وضع أوامر 12 months 24 months أشهر مقدما، تأمين:
-
نفيديا مجموعات سلسلة H,
-
AMD غريزة,
-
إنتل غاودي،
-
خطوط التسريع الناشئة.
استراتيجية متعددة البائعين
لا أحد في كل شيء على بائع واحد.
hyperscalers الآن بشكل روتيني:
-
مزيج البائعين عبر مجموعات,
-
اعتماد مسرعات متخصصة لكل مهمة ،
-
تقييم التكلفة لكل رمز مقابل التكلفة لكل TFLOP مقابل التكلفة لكل واط.
برامج السيليكون المخصصة
كل شخص يبني رقائقه الخاصة:
-
جوجل TPU
-
AWS ترينيوم والجحيم
-
مايكروسوفت مايا
-
ميتا متيا
GPU أولا لا يعني دائما وحدة معالجة الرسومات فقط.....
وهذا يعني تسريع أولا.
أقمشة الشبكة بنيت ل GPU Megaclusters
تعمل وحدات معالجة الرسومات بشكل جيد فقط عندما تتمكن من التواصل في وقت استجابة منخفض وعرض نطاق ترددي مرتفع.
تستثمر الشركات العملاقة في:
نسيج HPC-Style واسع النطاق
-
400G transition 800G transition 1.6T التحولات
-
الطبولوجيا الأمثل AI
-
الازدحام واعية التوجيه
جدولة الكتلة الكبيرة جدا
المجموعات الممتدة:
-
الآلاف من العقد ،
-
عشرات الآلاف من GPUs ،
-
تنسيق إدارة النسيج.
إعادة تدريب طائرة التحكم في الشبكة
تشمل:
-
تصنيف حركة المرور AI ،
-
التنبؤ بعرض النطاق الترددي على مستوى الكتلة ،
-
الحرارية modeling السلطة modeling شبكة النمذجة الترابط.
الشبكات هي الآن عنق الزجاجة.
الهايبرسكيلر يهاجمونه بقوة
البرامج والجدولة التحول
التحول ليس مجرد أجهزة.
ويجري حاليا إعادة صياغة النموذج التشغيلي.
جدولة GPU-Aware
يتكيف المجدولون مع:
-
تجزئة ذاكرة GPU
-
التوازي الموتر
-
تكرار متعدد GPU
-
أنماط نقاط التفتيش النموذجية
التخصيص الديناميكي مقابل الحجز
تتحرك وحدات معالجة الرسومات بين:
-
عبء العمل التدريبي،
-
ضبط أعباء العمل,
-
مجموعات الاستدلال,
-
خطوط الأنابيب دفعة
غالبا في دقائق.....
وقت التشغيل وتوحيد المنصة
يتلاقى Hyperscalers على:
-
PyTorch كخط أساس
-
سلاسل أدوات CUDA / XLA / ROCm
-
برامج تشغيل موحدة وتكدس النواة
تماسك البرمجيات أمر بالغ الأهمية لتوسيع نطاق المسرعات بكفاءة.
العمليات العنقودية التي تركز على الذكاء الاصطناعي
يتطلب تشغيل غيوم GPU خبرة جديدة ، بما في ذلك:
جدولة مهام درجة الحرارة
تحول الوظائف على أساس:
-
أداء التبريد
-
الظروف الجوية الخارجية
-
إشارات تسعير الطاقة
انفجار القياس عن بعد
يجمع Hyperscalers الآن:
-
الخرائط الحرارية لكل GPU
-
لكل رف بيانات الطاقة
-
استخدام الشبكة في الوقت الحقيقي
-
مقاييس كفاءة التدريب النموذجي
-
درجات الصحة حلقة التبريد
الصيانة التنبؤية (بمساعدة منظمة العفو الدولية)
استخدام ML للكشف المسبق:
-
احتمال فشل GPU
-
تدهور مروحة
-
فقدان كفاءة لوحة الباردة
-
معجون الحرارية الشيخوخة
-
أنماط فشل NIC
أصبحت فرق عمليات GPU متخصصة مثل مهندسي HPC.
GPU-الاقتصاد الأول واستراتيجية الأعمال
هذا التحول ليست رخيصة.
تقوم الشركات العملاقة بإعادة هيكلة نماذجها المالية حول:
الدراجات الضخمة CapEx
المليارات المدرجة في الميزانية ل:
-
مجموعات منظمة العفو الدولية,
-
توسعات عالية الكثافة ،
-
التزامات السيليكون.
استراتيجيات تسييل GPU
تشمل:
-
SKU التدريب AI
-
مستويات قدرة الاستدلال
-
حالات GPU محفوظة
-
حدد وحدات معالجة الرسومات
-
GPU "المناطق داخل المناطق"
التنسيب العالمي الموزع
ليس كل منطقة يمكن أن تدعم كثافة GPU.
توقع:
-
المناطق الأولى لمنظمة العفو الدولية
-
مناطق الاستدلال الأولى
-
مناطق الاستدلال الحافة
إعداد القوى العاملة
لا يمكن لـ Hyperscalers توسيع البنية التحتية لـ GPU دون تغيير قدرات القوى العاملة.
توقع:
-
مهندسو HPC أكثر من أي وقت مضى
-
شبكة عبر المدربين compute حساب specialists المتخصصين التبريد
-
محللو دورة حياة الأجهزة
-
مهندسو الفيزياء العنقودية
-
مخططو إمدادات السيليكون
-
مديرو برامج الشراكة
هذا التحول في القوى العاملة جارٍ بالفعل.
الطريق إلى 2026-2028
من الآن وحتى أواخر عام 2020 ، توقع أن يقوم المتسلقون الفائقون بما يلي:
-
بناء المزيد GPU الأمثل megacampuses
-
استثمر في خطوط أنابيب السيليكون متعددة
-
انشر تخزين على نطاق exabyte لنقاط التفتيش AI
-
تطوير التبريد من الهواء أولاً liquid السائل أولاً liquid السائل الهجين / الغمر
-
توحيد على خدمات السحابة المحلية
-
إدخال متزايد بيئات التدريب الآلي
-
توسيع عروض سحابة GPU السيادية والخاصة
GPU أولا ليس اتجاها مؤقتا.
إنه المركز المعماري الجديد للجاذبية.
الخلاصة
تستعد الشركات العملاقة لأحمال العمل الأولى في GPU في كل طبقة من الهندسة المعمارية - من مصادر السيليكون إلى تصميم مراكز البيانات وأقمشة الشبكات وطوبولوجيا التبريد ومداخن البرامج وجدولة المجموعات وتخطيط السعة العالمية.
هذا التحول عميق:
-
وحدات المعالجة المركزية أصبحت قانون الدعم
-
GPUs والمسرعات هي النجوم
-
منظمة العفو الدولية هو تشكيل البنية التحتية من الألف إلى الياء
ستحدد الشركات التي تتقن هذا التحول العقد المقبل من الحوسبة السحابية والتدريب النموذجي واقتصاديات الحوسبة العالمية.
لقد بدأ عصر GPU.
و المتسلقين يتسابقون للسيطرة عليها


10820
IT Pro 

















