توضیحات: نوشته شده توسط: IT Pro; دسته: Blog; منتشر شده در 03 آذر 1404; بازدید: 5747

در طول دهه گذشته، معماری های ابر در مقیاس بالا بر روی ناوگان های قابل پیش بینی x86 سرور برای محاسبه کلی بهینه شده اند. این دوره پایان می یابد. با هوش مصنوعی عمومی، مدل های پایه، شبیه سازی و تجزیه و تحلیل سریع در حال حاضر مصرف مقادیر بی سابقه ای از محاسبه، Hyperscalers به سرعت به سمت معماری های GPU-first تغییر می کند - جایی که واحدهای پردازش گرافیک، شتاب دهنده ها و سیلیکون سفارشی، افزودنی های ثانویه نیستند، بلکه موتورهای اولیه محاسبه هستند.

این انتقال طراحی مجدد مرکز داده، اقتصاد، زنجیره تامین و اکوسیستم های نرم افزار در مقیاس جهانی است. در اینجا این است که چگونه hyperscalers برای آینده GPU-first آماده می شوند و این به معنای بقیه صنعت است.

How_Hyperscalers_Are_Preparing_for_GPU_First_Workloads.png

طراحی مجدد مراکز داده برای GPU با سرعت بالا خوشه ها

از لحاظ تاریخی، قفسه ها در اطراف حرارتی CPU مهندسی شده اند - به ندرت بیش از 8 تا 12 کیلووات در هر قفسه.
خوشه های مدرن AI فراتر از 30 کیلووات، 60 کیلووات و حتی 100+ کیلووات در هر قفسه...

Hyperscalers با:

سرد کردن مایع به عنوان یک شکست

حلقه های مستقیم به تراشه سرد برای گره های GPU
مبدل های حرارتی درب عقب برای ناوگان های هیبریدی
ارتقاء زیرساخت های آب تسهیلات
واحدهای توزیع سرد (CDUs) در طرح های سطح ردیف

ویژگی های High-Density Pods

فقط ردیف های GPU با سخت افزار حرارتی
راهروهای جریان هوایی Segregated Airflow
قدرت و خنک کننده مستقل از سالن های محاسباتی عمومی

برنامه ریزی ظرفیت حرارتی

خوشه های AI اکنون رانندگی می کنند انتخاب سایتنه CPU.

ظرفیت خنک کننده تعیین می کند:

چه تعداد از GPU ها را می توان نصب کرد
جایی که می توانند قرار بگیرند
چگونه خوشه های سریع می توانند مقیاس

بازسازی Datacenter تحویل قدرت

یک قفسه از شتاب دهنده های AI می توانند قرعه کشی کنند 50+ کیلوواتایجاد فشار گسترده بر زیرساخت های قدرت

Hyperscalers واکنش نشان می دهد:

ساخت substation-adjacent

برای اطمینان از دسترسی چند مگاواتی برای گسترش ظرفیت GPU.

استفاده سنگین از توزیع HV اضافی

اپراتورها اضافه می کنند:

110 کیلووات - 230 kW فید ورودی
ایستگاه های سوئیچ پیشرفته
طراحی های شبکه

هماهنگی قدرت + Traottling

خوشه های GPU در معرض:

قدرت پویا،
سوگند،
برنامه ریزی شده،
و حتی تخلیه کاری مبتنی بر حرارتی.

استراتژیک GPU تدارکات و خطوط لوله سیلیکون

میدان نبرد جدید عرضه سیلیکون است.

GPU تهاجمی Pre-Purcha

در حال حاضر Hyperscalers سفارش می دهند 12 تا 24 ماه قبلامنیت:

NVIDIA خوشه های سری H،
AMD Instinct
Intel Gaudi،
و خطوط شتاب دهنده در حال ظهور

استراتژی Multi-Vendor

هیچ کس در یک فروشنده نیست.

در حال حاضر به طور منظم:

فروشندگان مخلوط در سراسر خوشه ها،
شتاب دهنده های تخصصی را در هر کار اتخاذ کنید.
ارزیابی هزینه در برابر هزینه بر / هزینه-TFLOP در مقابل هزینه-پر وات.

برنامه های سفارشی سیلیکون

همه دارند تراشه های خودشان را می سازند:

Google630
AWS Trainium و Inferentia
Microsoft Maia
Meta MTIA

اولین GPU همیشه به این معنا نیست GPU-فقط...

این به معنای شتاب اول است.

پارچه های شبکه ساخته شده برای GPU Megaclusters

GPU ها تنها زمانی خوب عمل می کنند که بتوانند در تاخیر پایین و پهنای باند بالا ارتباط برقرار کنند.

سرمایه گذاران سرمایه گذاری می کنند:

پارچه های HPC-Style

400G - انتقال 1.6T
هوش مصنوعی بهینه سازی شده
مسیریابی آگاهانه

برنامه ریزی خوشه ای فوق العاده بزرگ

خوشه های اطراف:

هزاران گره،
ده ها هزار GPU
مدیریت پارچه هماهنگ

آموزش هواپیما کنترل شبکه

شامل:

طبقه بندی ترافیک AI،
پیش بینی پهنای باند سطح خوشه ای،
حرارتی + قدرت + مدل سازی وابستگی متقابل شبکه

شبکه در حال حاضر یک تنگنا است.
به شدت به آن حمله می کنند.

نرم افزار و Scheduling تحول

این تغییر فقط سخت افزار نیست.

مدل عملیاتی بازنویسی شده است.

برنامه زمانبندی GPU-Aware

برنامه ریزی برای:

حافظه GPU
ده هاor Parallelism
تکثیر Multi-GPU
الگوهای بازرسی مدل

تخصیص دینامیک در مقابل رزرو

GPU ها بین:

آموزش کار،
تنظیم حجم کاری،
خوشه های استنتاج،
خطوط لوله دسته ای

اغلب در دقیقه...

زمان و استاندارد سازی پلتفرم

Hyperscaleer ها در حال جمع آوری هستند:

PyTorch به عنوان یک پایه
ابزار CUDA/XLA/ROCm
رانندگان متحد و پشته های هسته

انسجام نرم افزار برای شتاب دهنده های مقیاس پذیر بسیار مهم است.

عملیات خوشه ای AI-Focuse

ابرهای گرافیکی نیازمند تخصص جدید هستند، از جمله:

برنامه ریزی شغلی با آگاهی از دما

تغییر شغل بر اساس:

عملکرد خنک کننده
شرایط آب و هوایی خارجی
سیگنال های قیمت گذاری برق

انفجار Telemetry

Hyperscalers در حال حاضر جمع آوری:

نقشه های حرارتی V-GPU
داده های انرژی
استفاده از شبکه در زمان واقعی
معیارهای بهره وری آموزش مدل
ویژگی های خنک کننده

نگهداری پیش بینی شده (AI-HELP)

استفاده از ML برای قبل از کشف:

احتمال شکست GPU
تخریب فن
کاهش بهره وری سرد
چسب های حرارتی
حالت شکست NIC

تیم های تحقیقاتی GPU به عنوان مهندسان HPC تخصصی می شوند.

GPU-First Economics & Business Strategy

این تغییر ارزان نیست.

Hyperscalers مدل های مالی خود را در اطراف بازسازی می کنند:

CapEx Megacycles

میلیاردها دلار برای:

خوشه های AI،
گسترش های بلند مدت،
تعهدات سیلیکون

استراتژی های درآمد GPU

شامل:

آموزش هوش مصنوعی SKUs
ویژگی های ظرفیت
GPU رزرو شده
GPU های نقطه
GPU "مناطق داخل مناطق"

توزیع جهانی

هر منطقه نمی تواند از چگالی GPU پشتیبانی کند.

انتظار:

مناطق AI-first
مناطق اول
مناطق حاشیه ای

آماده سازی نیروی کار

Hyperscalers نمی تواند زیرساخت های GPU را بدون تغییر قابلیت های نیروی کار مقیاس کند.

انتظار:

مهندسان HPC بیشتر از قبل
شبکه آموزش داده شده + محاسبه + متخصصان خنک کننده
تحلیلگران چرخه عمر سخت
مهندسان فیزیک خوشه ای
برنامه ریزان عرضه سیلیکون
مدیران برنامه شریک زندگی فا

این انتقال نیروی کار در حال انجام است.

جاده به 2026-2028

بین حال حاضر و اواخر سال 2020، انتظار می رود بیش از حد به:

ساخت بیشتر GPU- Optimize Mega Campuss
سرمایه گذاری در چندین خط لوله سیلیکون
Deploy ذخیره سازی در مقیاس بازرسی های AI
خنک کننده Evolve از هوا اول - مایع اول
استانداردسازی در خدمات ابر شتاب دهنده
معرفی به طور فزاینده محیط های آموزش خودکار
پیشنهادات ابر مستقل و خصوصی GPU

اولین GPU یک روند موقت نیست.

این مرکز معماری جدید جاذبه است.

نتیجه گیری

Hyperscalers در حال آماده سازی برای اولین بار در هر لایه از معماری - از منبع سیلیکون به طراحی مرکز داده، پارچه های شبکه، توپولوژی خنک کننده، پشته نرم افزار، برنامه ریزی خوشه ای و برنامه ریزی ظرفیت جهانی است.

این تغییر عمیق است: