Online: 300 online | Members: 0 | Guests: 300
سه شنبه, خرداد 14, 1405

در طول دهه گذشته، معماری های ابر در مقیاس بالا بر روی ناوگان های قابل پیش بینی x86 سرور برای محاسبه کلی بهینه شده اند. این دوره پایان می یابد. با هوش مصنوعی عمومی، مدل های پایه، شبیه سازی و تجزیه و تحلیل سریع در حال حاضر مصرف مقادیر بی سابقه ای از محاسبه، Hyperscalers به سرعت به سمت معماری های GPU-first تغییر می کند - جایی که واحدهای پردازش گرافیک، شتاب دهنده ها و سیلیکون سفارشی، افزودنی های ثانویه نیستند، بلکه موتورهای اولیه محاسبه هستند.

این انتقال طراحی مجدد مرکز داده، اقتصاد، زنجیره تامین و اکوسیستم های نرم افزار در مقیاس جهانی است. در اینجا این است که چگونه hyperscalers برای آینده GPU-first آماده می شوند و این به معنای بقیه صنعت است.

How_Hyperscalers_Are_Preparing_for_GPU_First_Workloads.png


طراحی مجدد مراکز داده برای GPU با سرعت بالا خوشه ها

از لحاظ تاریخی، قفسه ها در اطراف حرارتی CPU مهندسی شده اند - به ندرت بیش از 8 تا 12 کیلووات در هر قفسه.
خوشه های مدرن AI فراتر از 30 کیلووات، 60 کیلووات و حتی 100+ کیلووات در هر قفسه...

Hyperscalers با:

سرد کردن مایع به عنوان یک شکست

  • حلقه های مستقیم به تراشه سرد برای گره های GPU

  • مبدل های حرارتی درب عقب برای ناوگان های هیبریدی

  • ارتقاء زیرساخت های آب تسهیلات

  • واحدهای توزیع سرد (CDUs) در طرح های سطح ردیف

ویژگی های High-Density Pods

  • فقط ردیف های GPU با سخت افزار حرارتی

  • راهروهای جریان هوایی Segregated Airflow

  • قدرت و خنک کننده مستقل از سالن های محاسباتی عمومی

برنامه ریزی ظرفیت حرارتی

خوشه های AI اکنون رانندگی می کنند انتخاب سایتنه CPU.

ظرفیت خنک کننده تعیین می کند:

  • چه تعداد از GPU ها را می توان نصب کرد

  • جایی که می توانند قرار بگیرند

  • چگونه خوشه های سریع می توانند مقیاس

بازسازی Datacenter تحویل قدرت

یک قفسه از شتاب دهنده های AI می توانند قرعه کشی کنند 50+ کیلوواتایجاد فشار گسترده بر زیرساخت های قدرت

Hyperscalers واکنش نشان می دهد:

ساخت substation-adjacent

برای اطمینان از دسترسی چند مگاواتی برای گسترش ظرفیت GPU.

استفاده سنگین از توزیع HV اضافی

اپراتورها اضافه می کنند:

  • 110 کیلووات - 230 kW فید ورودی

  • ایستگاه های سوئیچ پیشرفته

  • طراحی های شبکه

هماهنگی قدرت + Traottling

خوشه های GPU در معرض:

  • قدرت پویا،

  • سوگند،

  • برنامه ریزی شده،

  • و حتی تخلیه کاری مبتنی بر حرارتی.


استراتژیک GPU تدارکات و خطوط لوله سیلیکون

میدان نبرد جدید عرضه سیلیکون است.

GPU تهاجمی Pre-Purcha

در حال حاضر Hyperscalers سفارش می دهند 12 تا 24 ماه قبلامنیت:

  • NVIDIA خوشه های سری H،

  • AMD Instinct

  • Intel Gaudi،

  • و خطوط شتاب دهنده در حال ظهور

استراتژی Multi-Vendor

هیچ کس در یک فروشنده نیست.

در حال حاضر به طور منظم:

  • فروشندگان مخلوط در سراسر خوشه ها،

  • شتاب دهنده های تخصصی را در هر کار اتخاذ کنید.

  • ارزیابی هزینه در برابر هزینه بر / هزینه-TFLOP در مقابل هزینه-پر وات.

برنامه های سفارشی سیلیکون

همه دارند تراشه های خودشان را می سازند:

  • Google630

  • AWS Trainium و Inferentia

  • Microsoft Maia

  • Meta MTIA

اولین GPU همیشه به این معنا نیست GPU-فقط...

این به معنای شتاب اول است.


پارچه های شبکه ساخته شده برای GPU Megaclusters

GPU ها تنها زمانی خوب عمل می کنند که بتوانند در تاخیر پایین و پهنای باند بالا ارتباط برقرار کنند.

سرمایه گذاران سرمایه گذاری می کنند:

پارچه های HPC-Style

  • 400G - انتقال 1.6T

  • هوش مصنوعی بهینه سازی شده

  • مسیریابی آگاهانه

برنامه ریزی خوشه ای فوق العاده بزرگ

خوشه های اطراف:

  • هزاران گره،

  • ده ها هزار GPU

  • مدیریت پارچه هماهنگ

آموزش هواپیما کنترل شبکه

شامل:

  • طبقه بندی ترافیک AI،

  • پیش بینی پهنای باند سطح خوشه ای،

  • حرارتی + قدرت + مدل سازی وابستگی متقابل شبکه

شبکه در حال حاضر یک تنگنا است.
به شدت به آن حمله می کنند.


نرم افزار و Scheduling تحول

این تغییر فقط سخت افزار نیست.

مدل عملیاتی بازنویسی شده است.

برنامه زمانبندی GPU-Aware

برنامه ریزی برای:

  • حافظه GPU

  • ده هاor Parallelism

  • تکثیر Multi-GPU

  • الگوهای بازرسی مدل

تخصیص دینامیک در مقابل رزرو

GPU ها بین:

  • آموزش کار،

  • تنظیم حجم کاری،

  • خوشه های استنتاج،

  • خطوط لوله دسته ای

اغلب در دقیقه...

زمان و استاندارد سازی پلتفرم

Hyperscaleer ها در حال جمع آوری هستند:

  • PyTorch به عنوان یک پایه

  • ابزار CUDA/XLA/ROCm

  • رانندگان متحد و پشته های هسته

انسجام نرم افزار برای شتاب دهنده های مقیاس پذیر بسیار مهم است.


عملیات خوشه ای AI-Focuse

ابرهای گرافیکی نیازمند تخصص جدید هستند، از جمله:

برنامه ریزی شغلی با آگاهی از دما

تغییر شغل بر اساس:

  • عملکرد خنک کننده

  • شرایط آب و هوایی خارجی

  • سیگنال های قیمت گذاری برق

انفجار Telemetry

Hyperscalers در حال حاضر جمع آوری:

  • نقشه های حرارتی V-GPU

  • داده های انرژی

  • استفاده از شبکه در زمان واقعی

  • معیارهای بهره وری آموزش مدل

  • ویژگی های خنک کننده

نگهداری پیش بینی شده (AI-HELP)

استفاده از ML برای قبل از کشف:

  • احتمال شکست GPU

  • تخریب فن

  • کاهش بهره وری سرد

  • چسب های حرارتی

  • حالت شکست NIC

تیم های تحقیقاتی GPU به عنوان مهندسان HPC تخصصی می شوند.


GPU-First Economics & Business Strategy

این تغییر ارزان نیست.

Hyperscalers مدل های مالی خود را در اطراف بازسازی می کنند:

CapEx Megacycles

میلیاردها دلار برای:

  • خوشه های AI،

  • گسترش های بلند مدت،

  • تعهدات سیلیکون

استراتژی های درآمد GPU

شامل:

  • آموزش هوش مصنوعی SKUs

  • ویژگی های ظرفیت

  • GPU رزرو شده

  • GPU های نقطه

  • GPU "مناطق داخل مناطق"

توزیع جهانی

هر منطقه نمی تواند از چگالی GPU پشتیبانی کند.

انتظار:

  • مناطق AI-first

  • مناطق اول

  • مناطق حاشیه ای


آماده سازی نیروی کار

Hyperscalers نمی تواند زیرساخت های GPU را بدون تغییر قابلیت های نیروی کار مقیاس کند.

انتظار:

  • مهندسان HPC بیشتر از قبل

  • شبکه آموزش داده شده + محاسبه + متخصصان خنک کننده

  • تحلیلگران چرخه عمر سخت

  • مهندسان فیزیک خوشه ای

  • برنامه ریزان عرضه سیلیکون

  • مدیران برنامه شریک زندگی فا

این انتقال نیروی کار در حال انجام است.


جاده به 2026-2028

بین حال حاضر و اواخر سال 2020، انتظار می رود بیش از حد به:

  • ساخت بیشتر GPU- Optimize Mega Campuss

  • سرمایه گذاری در چندین خط لوله سیلیکون

  • Deploy ذخیره سازی در مقیاس بازرسی های AI

  • خنک کننده Evolve از هوا اول - مایع اول

  • استانداردسازی در خدمات ابر شتاب دهنده

  • معرفی به طور فزاینده محیط های آموزش خودکار

  • پیشنهادات ابر مستقل و خصوصی GPU

اولین GPU یک روند موقت نیست.

این مرکز معماری جدید جاذبه است.


نتیجه گیری

Hyperscalers در حال آماده سازی برای اولین بار در هر لایه از معماری - از منبع سیلیکون به طراحی مرکز داده، پارچه های شبکه، توپولوژی خنک کننده، پشته نرم افزار، برنامه ریزی خوشه ای و برنامه ریزی ظرفیت جهانی است.

این تغییر عمیق است:

  • CPU ها در حال تبدیل شدن به عمل پشتیبانی هستند

  • GPU ها و شتاب دهنده ها ستاره هستند

  • AI در حال شکل دادن به زیرساخت از زمین به بالا است

شرکت هایی که این انتقال را مدیریت می کنند، دهه آینده محاسبات ابری، آموزش مدل و اقتصاد محاسبه جهانی را تعریف خواهند کرد.

عصر GPU آغاز شده است.

و بیش از حد بر آن تسلط دارند.

Latest Articles

Read More...
date dark
hits dark 2758
Read More...
date dark
hits dark 2713