За останнє десятиліття роботи над хмарними архітектурами гіпермасштабно сконцентрувалися на прогнозованих серверах x86, оптимізованих для загального обчислення. Ця ера закінчується. З генеалогічним штучним інтелектом, модельми фундаменту, симуляцією та прискореними аналітичними зараз споживають безпрецедентну кількість обчислювальних даних, hypercalers швидко змінюються у напрямку до першої архітектури GPU Там, де графічна обробка одиниць, прискорювача та нетиповий кремнієвий не є вторинними добавками, а головними двигунами обчислення.
Цей перехід змінює дизайн Центру даних, економіку, системи постачання та системи програмного забезпечення на глобальному рівні. Тут йде про те, як гіпермасляри готуються до першого майбутнього GPU, і що це означає для решти індустрії.

Переобладнання центрів даних для високої чутливості GPU Скупчення
Історично, під час випарів процесора майже не перевищували 8'12 кВ на стелаж.
Сучасні скупчення комп' ютерного гравця перевищують 30 кВт, 60 кВ і навіть 100+ кВт на сковорідку.
Шкала гіпер- масштабів відповідають:
Типове охолодження рідини
-
Петлі від холодної пластинки для вузлів GPU
-
теплообмінники задніх дверей для гібридних флотів
-
Водяна інфраструктура обладнання об'єктів
-
Одиниці дистрибуції охолоджуючої якості (CDUs) у дизайні рядкового рівня
Спеціалізовані висококласні споруди
-
Тільки рядки GPU з суворим тепловим зонуванням
-
Оприлюднені коридори повітряного потоку
-
Сила і охолодження незалежно від загального призначення обчислювати зали
Планування виробничих потужностей
Диск комп' ютерного гравця вибір сайта, не процесори.
Коефіцієнт охолодження визначається:
-
кількість одиниць процесора
-
де їх можна розмістити
-
наскільки швидко можуть масштабувати скупчення
Перевстановлення центру даних Доставка енергії
Можна намалювати єдиний акселератор комп'ютера 50+ кВт, спричиняючи масове навантаження на електро інфраструктуру.
Гіперколомери реагують на:
Будівництво кампусів підстанцій- Адджаценту
Для того, щоб забезпечити доступність мульти-хв-МВ для розширення потужностей GPU.
Важке використання надлишку ПЗ
Додавати оператори:
-
110 кВС 230 КВ- д- д подачі
-
Додаткові перемикання станцій
-
дизайни, що відповідають ґратці
Влада оркестру + трепет
Групи GPU мають справу з:
-
динамічні заряди живлення,
-
навантаження,
-
заплановані висновки,
-
і навіть на основі теплової роботи евакуації.
Стратегічний GPU Кремнієві труби
Нове поле бою - кремнієва маса.
Агресивний GPU Попереднє налаштування
Тепер гіпермасштабники встановлюють порядок 12}24 + місяців напередЗабезпечення:
-
НАВІДІЯ Г-серії,
-
AMD Instinct,
-
Intel Gaudi,
-
і нові рядки акселератора.
Стратегія декількох варіантів
Ніхто не надається на одного постачальника.
Тепер люди, які мають гіпермасляри, зазвичай:
-
змішувати продавців груп,
-
прийом спеціальних акселераторів на завдання,
-
Оцінка вартості за-поціни проти витрат за-від-від-від-від-відсоток.
Нетипові Кремнієві програми
Кожен будує власні чіпси:
-
Google TPU
-
Тренування AWS і інферентія
-
Microsoft Maya
-
Meta MTIA
GPU-00 завжди означає Тільки GPU.
Це означає прискорення першим.
Network Fabrics built for GPU Megaclusers
ППС добре функціонують лише тоді, коли вони можуть спілкуватися на низькому запізненні та високому проспекті.
У:
Маса- scale HPC- Stil Fabrics
-
400G → 800G → 1.6T переходу
-
Основні параметри комп' ютера
-
Маршрутування затори
Планування надвисокого скупчення
Скупчення:
-
Тисячі вузлів,
-
Десятки тисяч GPU,
-
Координоване управління тканиною.
Відновлення літака керування мережею
Включно:
-
Класифікація дорожнього руху,
-
Прогноз пропускної здатності рівня,
-
тепло + живлення + мережева інтерактивна модель.
Мережа тепер в'язниця.
Гіпер масштабери нападають на нього.
& Планування програм Перетворення
Зміна - це не лише обладнання.
Операційна модель переписується.
Планувальники програм GPU
Планувальники пристосовуються до:
-
Фрагментація пам' яті GPU
-
Паскалів
-
реплікація multi-GPU
-
моделі контрольних пунктів
Динамічне виділення/ резервування
Пересування GPU між:
-
тренировки,
-
налаштування робочих місць,
-
Вирішальні скупчення,
-
Пакетні труби
Часто в хвилин.
Стандартне виконання & платформи
Об' єднання гіпермасштабів:
-
PyTorch як базова лінія
-
Інструменти CUDA/XLA/ROCm
-
Універсальні стоси драйверів і ядра
Коефіцієнт програмного з' єднання є важливим для ефективного масштабування прискорювача.
Дії над скупченням AI
Операційні хмари GPU потребують нового досвіду, зокрема:
Планування завдань з врахуванням температури
Зміна завдань на основі:
-
покращена швидкодія
-
зовнішні погодні умови
-
сигнали ціноутворення
Вибух телеметрії
Тепер збирають гіперкалії:
-
на термальні карти GPU
-
Дані про енергію для окремих доріжок
-
використання мережі у режимі реального часу
-
Метелярні показники ефективності навчання
-
Рівень здоров'я охолоджувальної петлі
Передбачено профілактику (вкладено)
Використання ML для попереднього визначення:
-
Ймовірність невдачі GPU
-
деградація вентилятора
-
втрати ефективності холоду
-
теплове вставка старіє
-
Режими помилок NIC
Групи спецопераційних служб стали такими ж спеціалізованими, як інженери HPC.
Перша економіка і бізнес- стратегія GPU
Ця зміна недешева.
Штучки гіпермасштаб реструктурують свої фінансові моделі навколо:
Капекс - мегацикли
Мільярди на бюджет:
-
Скупчення комп' ютера,
-
збільшення інтенсивності,
-
і кремнієві зобов'язання.
Стратегія монеїзації GPU
Включно:
-
Навчання AI SKUs
-
Коефіцієнт об' єму
-
Зарезервовані екземпляри GPU
-
точка GPU
-
GPU ⁄regions всередині областей
Розподілити глобальне розташування
Не кожен регіон може підтримувати щільність процесора.
Expect:
-
Перша ділянка AI
-
Початок оцінки областей
-
Еквівалентні зони
Підготовка робочої сили
Гіпер-гонки можуть сягати масштабу інфраструктури GPU без зміни можливостей праці.
Expect:
-
Більше інженерів HPC, ніж будь- коли раніше
-
Диспетчерська мережа + обчислення + охолодження спеціалістів
-
Коштовний життєвий цикл
-
Фізики-скупчення
-
Кремнієві планувальники поставок
-
Керування програмами-партнерами
Ця зміна робочої сили вже триває.
Дорога до 2026 2028 року.
Між теперішнім і пізнім 2020-м роками, очікується гіпермасштабних масштабів:
-
Створити більше Оптимізовані мегакампузи GPU
-
Ввести в багато силіконових труб
-
Введення Обсяг ексабайта для контрольних пунктів комп' ютера
-
Еволюція охолоджується від першого охолодження → спочатку рідини → Гібридна рідина/імітація.
-
Стандартилізувати на Служби акселерантних хмар
-
Познайомтесь дедалі частіше Автоматичне тренування
-
Розгорнути суверенні і приватні пропозиції хмар GPU
Перша - це не тимчасова тенденція.
Це новий архітектурний центр гравітації.
Висновки
Гіпер-вигони готуються до роботи на кожному шарі архітектури від кремнієвого до дизайну центра даних, мережної тканини, охолодження топологій, програмного забезпечення, планування кластерів та планування глобальної потужності.
Ця зміна ґрунтовна:
-
Підтримуються процесори
-
Зірки - це процесори і прискорювачі GPU
-
Комплекс комп'ютерної інфраструктури з поверхні
Компаніями, які опанують цей перехід, визначатимуть наступне десятиліття обчислювальних обчислювальних обчислювачів, модельного тренування та глобальної економіки.
Епоха GPU розпочалася.
І гіпермасляри намагаються домінувати над ним.


10812
IT Pro 



















