NPUs برای خریداران IT توضیح داد: اعداد "S" در زندگی واقعی چه معنایی دارند

توضیحات: نوشته شده توسط: IT Pro; دسته: Blog; منتشر شده در 21 بهمن 1404; بازدید: 3078

NPU ها از سیلیکون “nice-to-have” به یک آیتم خط که در لپ تاپ RFPs، VDI بحث های تازه و نقشه های امنیتی endpoint نشان می دهد، نقل مکان کرده اند. با این حال، تعداد اغلب برای توصیف آنها استفاده می شود - S - می تواند گمراه کننده باشد زمانی که مانند GHz یا اعداد اصلی رفتار می شود. برای خریداران فناوری اطلاعات، سوال عملی این نیست که “چندین TOPS این NPU را دارند؟” اما “چه کارهایی شتاب می دهد، با چه تاخیر، با چه محدودیت های قدرت و نرم افزار و برای چه مدت در چرخه عمر دستگاه؟”

این مقاله TOPS را به زبان تدارکات ترجمه می کند: چه چیزی اندازه گیری می کند، چه چیزی را پنهان می کند و چگونه ارزش دنیای واقعی را برای نقاط پایانی شرکت آزمایش کنیم. هدف این است که به شما کمک کند تصمیم بگیرید که هر دو بازاریابی فروشنده و پشته نرم افزار AI سریع حرکت کنید.

چرا NPU ها در کامپیوتر ها و نقاط پایانی وجود دارند

نقاط پایانی شرکت در حال حاضر ویژگی های هوش مصنوعی بیشتری نسبت به اکثر تیم ها دارند. برخی واضح هستند، مانند جلسه رونویسی، تار پس زمینه و تمیز کردن صوتی “studio”. دیگران در داخل محصولات امنیتی، ویژگی های مرورگر، خطوط لوله پردازش تصویر، ابزار دسترسی یا حتی تجارب سطح سیستم عامل پنهان می شوند. به طور سنتی، این وظایف بر روی CPU یا GPU اجرا شد. این کار می کند، اما قدرت را می سوزاند، زمان GPU را از کارهای گرافیکی سرقت می کند و می تواند صخره های عملکرد پر سر و صدا را در دستگاه های نازک و روشن تحت محدودیت های باتری ایجاد کند.

کار NPU این است که به طور موثر کارهای استنتاج هوش مصنوعی را انجام دهد: تأخیر پایین، شکست پایدار و حداقل قدرت. از نظر تدارکات، NPU یک شتاب دهنده ی کارآمد است. هنگامی که به خوبی کار می کند، عمر باتری طولانی تر در طول همکاری AI-heavy، رویدادهای حرارتی کمتر، عملکرد پیش بینی شده تر و به طور بالقوه حریم خصوصی بهتر به دلیل پردازش بیشتر می تواند در دستگاه باقی بماند.

آنچه در واقع به معنی

TOPS مخفف عبارت “tr تریلیون ها عملیات در هر ثانیه” است. در تئوری، این یک متریک است: چه تعداد عملیات محاسباتی شتاب دهنده می تواند هر ثانیه انجام دهد. در بازاریابی، اغلب برای “عملکرد هوش مصنوعی” کوتاه می شود، اما این تنها گاهی درست است.

اولین تله عبارت «عملیات» است. فروشندگان ممکن است انواع مختلفی از ریاضی را به عنوان "درمان" حساب کنند. برخی از عملیات صحیح شمارش می کنند (معمولا برای استنتاج واجد شرایط). برخی دیگر بر عملیات شناور تأکید می کنند یا چندین عدد را برای دقت های مختلف ارائه می دهند (INT8، INT4، FP16 و غیره). تله دوم این است که TOPS معمولا یک عدد اوج است که در شرایط ایده آل اندازه گیری می شود که شبیه به تیم های انتهایی شما نیست، مرورگر با 30 زبانه، EDR، DLP، VPN و یک دیسک رمزگذاری شده است.

درمان TOPS مانند " پهنای باند شبکه ضعیف در یک سوئیچ". مفید اما فقط به عنوان نقطه شروع. تجربه شما به کل مسیر بستگی دارد: چارچوب های نرم افزاری، دقت مدل، پهنای باند حافظه، بلوغ راننده، رفتار زمانبندی و اینکه آیا برنامه های هدف شما حتی می توانند از NPU استفاده کنند.

اوج TOPS در مقابل TOPS موثر

اوج TOPS حداکثر توان نظری تحت یک پاکت دقیق و ساعت / قدرت خاص است. TOPS موثر چیزی است که کار شما در عمل به دست می آورد. از طریقput موثر می تواند به دلیل تنگناهایی که هیچ ارتباطی با محاسبه خام ندارند، به طور چشمگیری پایین تر باشد.

دلایل معمول کاهش عملکرد موثر:

ترافیک حافظه مدل بر محاسبه تسلط دارد. بسیاری از مدل های مدرن داده های زیادی را منتقل می کنند. اگر شتاب دهنده در حافظه منتظر باشد، واحدهای محاسباتی بیشتر (و بالاتر از حد بالا) کمک زیادی نخواهند کرد.

پوشش اپراتور ناقص است. اگر مدل شما از لایه های NPU استفاده می کند، زمان اجرا شتاب نمی کند، این لایه ها به CPU / GPU باز می گردند و غرفه ها و سربار های کپی را معرفی می کنند.

عدم تطابق دقیق اگر عنوان NPU TOPS فرض INT8 اما پشته خود را اجرا FP16، و یا شما نمی توانید بدون از دست دادن کیفیت، شما ممکن است هرگز به سطح آگهی رسیده است.

محدودیت های حرارتی و قدرت لپ تاپ های نازک ممکن است برای مدت طولانی شماره اوج را حفظ نکنند. جلسات AI پایدار بیشتر شبیه به "بار ثابت" نسبت به یک معیار انفجار رفتار می کنند.

سیستم محتوا نقاط پایانی واقعی شلوغ هستند. خدمات پس زمینه، رمزگشایی ویدئویی، رمزگذاری و بازرسی امنیتی می تواند چرخه ها را سرقت کند یا تاخیر را افزایش دهد.

دقت چند برابر پنهان پشت TOPS

همان سیلیکون می تواند چهره های بسیار متفاوتی نسبت به دقت عددی داشته باشد. ریاضی با دقت پایین (مانند INT8 یا INT4) می تواند عملیات بیشتری را در هر چرخه نسبت به نقطه شناور با دقت بالاتر اجرا کند. به همین دلیل است که شما ممکن است فروشندگان را به تبلیغ شماره بزرگ TOPS "برای INT8" در حالی که FP16 یا FP32 ارقام بسیار کوچکتر است.

برای خریداران IT، کلید این است که بپرسید: حجم کار در واقع چه دقتی دارد؟ بسیاری از موارد استفاده از شرکت - تقویت، رونویسی، مدل های زبان کوچک برای خلاصه سازی، یا مدل های بینایی برای اثرات وب سایت - می تواند به خوبی اجرا شود. سایر کارهای کاری، به ویژه مدل های سفارشی یا سناریوهای با ثبات بالا، ممکن است نیاز به دقت بالاتر یا حداقل کالیبراسیون دقیق برای حفظ کیفیت داشته باشند.

خرید عملی: اگر عنوان TOPS فروشنده با دقتی که نمی توانید به طور عملی به آن متصل شوید، این عدد مربوط به محیط شما نیست.

عدم صلاحیت به همان اندازه از طریق

TOPS از طریق خروجی است، نه تاخیر. بسیاری از تجربیات هوش مصنوعی نقطه انتهایی حساس به تاخیر هستند: مدل باید به سرعت به ورودی کاربر، جریان های میکروفون یا فریم های دوربین پاسخ دهد. یک دستگاه با TOPS بالاتر هنوز هم می تواند بدتر شود اگر به دلیل برنامه ریزی سربار، عدم کارایی چارچوب، یا افت مکرر CPU، تاخیر در پایان به پایان برسد.

در زندگی واقعی، کاربران تاخیر را قبل از اینکه از طریق نفوذ متوجه شوند، مشاهده می کنند. اگر تار پس زمینه دیر شروع شود، اگر سرکوب سر و صدا "pumps"، اگر عنوان تاخیر، و یا اگر خلاصه محلی به اندازه کافی طول می کشد که کاربر کلیک دور، گزاره ارزش NPU سقوط می کند - حتی اگر تراشه می تواند در مورد اوج بالا باشد.

پهنای باند حافظه: محدود کننده آرام

استنتاج هوش مصنوعی اغلب با پهنای باند حافظه و رفتار حافظه محدود می شود. شتاب دهنده باید به سرعت وزن و فعال سازی کند. اگر NPU حافظه را با CPU و GPU به اشتراک بگذارد، سیستم می تواند به محتوای حافظه ای تبدیل شود که تحت کارهای مختلف قرار دارد.

به همین دلیل است که دو دستگاه با TOPS مشابه می توانند به طور متفاوتی در کارهای پایدار رفتار کنند. ممکن است یک زیر سیستم حافظه بهتر، کارآمد تر بر روی Caching تراشه یا مجازات های اتصال کمتر بین NPU و حافظه اصلی داشته باشد. تیم های تدارکاتی به ندرت یک شماره “ پهنای باند حافظه هوش مصنوعی” تمیز دریافت می کنند، بنابراین امن ترین رویکرد این است که حجم کار نماینده را در شرایط نقطه پایانی واقعی ارزیابی کنند.

واقعیت پشته نرم افزار: آیا برنامه های شما می توانند از NPU استفاده کنند؟

NPU تنها زمانی ارزشمند است که نرم افزار شما بتواند آن را هدف قرار دهد. در استقرار شرکت، این بستگی به سیستم عامل، رانندگان، زمان اجرا و پشتیبانی از برنامه دارد.

چک لیست شما باید شامل:

دسترسی به زمان آیا زمان ثابتی وجود دارد که از NPU پشتیبانی می کند و به طور تمیز با مدیریت و فرآیندهای پچ شما ادغام می شود؟

سازگاری چارچوب آیا حجم کاری شما از طریق چارچوب های مشترک اجرا می شود (برای مثال، خطوط لوله مبتنی بر ONNX یا SDK های ارائه دهنده فروشنده)، یا آنها به یک پشته قفل شده اند که GPU را ترجیح می دهد؟

آمادگی درخواست آیا برنامه های همکاری و بهره وری کاربران شما در واقع برای NPU بر ساخت سیستم عامل شما متکی هستند؟ "حمایت از NPU" در یک یادداشت آزادی، همانند "بازسازی مداوم در پیکربندی مستاجر شما" نیست.

خطر بلوغ و بازگشت راننده محرک ها حساس به راننده هستند. اگر محیط شما بر ثبات تاکید می کند، شما نیاز به یک استراتژی به روز رسانی روشن و طرح عقب نشینی دارید.

تله متری شرکت آیا می توانید اندازه گیری کنید که آیا NPU درگیر است؟ اگر نمی توانید رفتار بارگذاری را مشاهده کنید، نمی توانید ارزش یا شکایات کاربران عیب یابی را تأیید کنید.

حذف شماره های فروشنده بدون به دام افتادن

هنگامی که فروشندگان TOPS را ارائه می دهند، فرض کنید که این یک سناریوی بهترین حالت است. کار شما این است که آن را به سوالات مربوط به تدارکات ترجمه کنید:

چه دقتی برای شخصیت تبلیغاتی TOPS استفاده می شود؟

آیا این دقت برای مدل هایی که اجرا می کنیم، با کیفیت مورد نیاز ما واقعی است؟

عملکرد پایدار تحت مداخله مستمر و در چه قدرت جذب می شود؟

آیا سیستم تحت بارهای سازمانی معمولی قرار دارد؟

تغییر عملکرد در هنگام باتری، متصل به VPN و اجرای EDR چگونه است؟

چه درصد از نمودار مدل بر روی NPU در مقابل سقوط CPU/GPU اجرا می شود؟

آیا می توانیم تعامل و بهره برداری NPU را با ابزارهای سازنده یا فروشنده معتبر کنیم؟

اگر فروشنده نمی تواند بدون دستی به این موارد پاسخ دهد، TOPS را به عنوان یک برچسب بازاریابی به جای یک متریک مهندسی درمان کنید.

سناریوهای واقعی زندگی که در آن NPU ها به شرکت IT کمک می کنند

قوی ترین موارد ارزش همیشه بر پیچیدگی کم تا متوسط است که تمام روز را اجرا می کند و با حجم کاری کاربر رقابت می کند.

پیشرفت های همکاری یک پیروزی مشترک است: اثرات پس زمینه، خودکار سازی، اصلاح خیره، و تمیز کردن صدا می تواند به طور مداوم در طول جلسات اجرا شود. هنگامی که این حجم کار از CPU / GPU حرکت می کند، اغلب صدای فن پایین تر، منافذ کمتر و رفتار باتری قابل پیش بینی تر را می بینید.

رونویسی در دستگاه و شرح می تواند وابستگی ابر را کاهش دهد و واکنش پذیری کاربران را در محیط های کم پهنای باند بهبود بخشد. همچنین می تواند به سازمان هایی که ترجیح می دهند داده های صوتی را به حداقل برسانند، کمک کند.

خلاصه سازی محلی، کمک نوشتن مجدد و جستجوی معنایی بیش از corpora کوچک محلی می تواند زمانی امکان پذیر باشد که مدل ها فشرده و واجد شرایط باشند. NPU می تواند این جریان های کاری را بدون استفاده از CPU خسته کننده احساس کند.

خطوط لوله دوربین و پردازش تصویر برای کارگران میدانی یا تیم های پشتیبانی – ضبط، تشخیص تار، خودکار – اغلب از نفوذ مداوم و کم قدرت بهره می برند.

برخی از تجزیه و تحلیل های امنیتی نیز می توانند مفید باشند، به ویژه الگوهایی که برای خطوط لوله مانند استنتاج نقشه می کنند. با این حال، خریداران باید با دقت ادعاهای خود را تأیید کنند، زیرا فروشندگان امنیتی ممکن است GPU یا CPU را به دلایل عملیاتی انتخاب کنند یا به امتیاز ابری تکیه کنند.

جایی که TOPS شما را نجات نخواهد داد

مدل های عمومی بزرگ و عمومی به طور خودکار توسط NPU حل نمی شوند. اگر شما انتظار دارید که نسل محلی طبقه دسکتاپ برای وظایف پیچیده، شما هنوز هم ممکن است نیاز به شتاب GPU، حافظه بیشتر، و یک پشته تنظیم شده برای آن کار. بسیاری از تجارب مدل بزرگ هنوز تحت سلطه ظرفیت حافظه، پهنای باند حافظه و بهینه سازی نرم افزار به جای TOPS خام است.

NPU ها به عنوان موتورهای بهره وری برای کلاس های استنتاج خاص دیده می شوند، نه سخت افزار جادویی که جایگزین GPU برای هر نیاز AI است.

یک راه مناسب برای مقایسه پلتفرم های NPU

به جای رتبه بندی دستگاه ها توسط TOPS به تنهایی، یک ماتریس مقایسه ایجاد کنید که منعکس کننده واقعیت سازمانی است.

کار بارگذاری مناسب: لیست تجربیات AI کاربران خود را در واقع اجرا می کنند و کسانی که انتظار دارید در 12 تا 24 ماه آینده استاندارد شوند.

تأیید مجدد: تأیید اینکه آیا هر بار کار از NPU به طور قابل اطمینان در ساخت سیستم عامل انتخابی شما استفاده می کند.

عدم صلاحیت و پاسخگویی: اندازه گیری نتایج قابل مشاهده کاربر، نه فقط از طریقput.

عملکرد پایدار: یک جلسه مداوم 20 تا 30 دقیقه ای را امتحان کنید، نه یک معیار کوتاه.

تاثیر باتری: مقایسه وات ساعت مصرف شده برای همان سناریوی “ملاقات + AI”

رفتار حرارتی: منحنی های فن و رویدادهای متخلخل را در طول چند وظیفه ای واقع بینانه دنبال کنید.

قابلیت مدیریت: اطمینان از رانندگان و زمان های اجرا با کادر پچ، مدیریت نقطه نهایی و کنترل های امنیتی ادغام می شوند.

قابلیت پشتیبانی: ارزیابی ابزار، ورود و پاسخگویی به فروشنده در زمانی که استنتاج شکست می خورد یا از بین می رود.

چگونه NPU ها را به گونه ای ارزیابی کنیم که نقشه ها برای نتایج کسب و کار

یک استراتژی کاربردی برای سازمان های IT دارای سه لایه است.

شروع با یک برنامه کار جریان. به عنوان مثال، یک تماس ویدئویی با اثرات پس زمینه فعال، زیرنویس ها و یک نمایه چند وظیفه ای واقع بینانه در پس زمینه. اندازه گیری استفاده از CPU، استفاده از GPU، تخلیه باتری در هر ساعت و پاسخگویی قابل مشاهده کاربر.

یک تست استنتاج کنترل شده اضافه کنید. از مجموعه کوچکی از مدل هایی که می توانید به صورت قانونی اجرا و تکرار کنید استفاده کنید. هدف این نیست که یک امتیاز را منتشر کنید، بلکه مقایسه سیستم عامل ها تحت شرایط یکسان است: همان مدل، همان دقت، همان اندازه دسته، همان پیکربندی زمان اجرا.

پایان دادن به استرس و تست بازگشت همان سناریوها را پس از به روز رسانی راننده، پچ های سیستم عامل و به روز رسانی های برنامه اجرا کنید. NPU ها به اندازه کافی جدید هستند که رگرسیون یک هزینه عملیاتی واقعی است.

اگر شما نمی توانید یک آزمایش تکراری "مسیر طلایی" را ایجاد کنید، برای توجیه هزینه های سخت افزاری مناسب تلاش خواهید کرد زیرا قادر به اثبات عملکرد یا بهبود قدرت نخواهید بود.

امنیت، حریم خصوصی و پیامدهای حکومت

AI در دستگاه می تواند با نگه داشتن پردازش محلی، نوردهی داده ها را کاهش دهد، اما همچنین مدل خطر نقطه پایانی شما را تغییر می دهد. شما در حال حاضر دارای دارایی های مدل، کش ها و به طور بالقوه حساس جاسازی شده در دستگاه های مشتری هستید. این با رمزگذاری دیسک، DLP و کتاب های پاسخ حادثه تداخل دارد.

تیم های IT باید بپرسند:

فایل های مدل کجا ذخیره می شوند و چگونه به روز می شوند؟

چه تله ای ایجاد می شود و می تواند تحت سیاست های سازمانی کنترل شود؟

آیا خروجی های حساس می توانند از نمایه سازی یا ذخیره سازی به صورت محلی جلوگیری شوند؟

چگونه تأیید می کنید که یک ویژگی “on- Device” واقعا بر روی دستگاه زیر پیکربندی شما است؟

NPU ها اجرای مدل ها را به صورت محلی آسان تر می کنند، اما حکومت هنوز نیازمند مدیریت پیکربندی منظم و حسابرسی است.

برنامه ریزی چرخه زندگی: از خرید برای نسخه آزمایشی امروز اجتناب کنید

پذیرش NPU به سرعت در حال حرکت است و چرخه های تجدید شرکت کند است. بزرگترین خطر خرید نقاط انتهایی برای یک کار آزمایشی است که سازمان شما استاندارد نمی کند، در حالی که از دست دادن قابلیت هایی که در سال دو یا سه چرخه عمر دستگاه مهم است.

سیستم عامل ها را با پشتیبانی قوی از اکوسیستم نرم افزار، تحویل راننده پایدار و observability اولویت بندی کنید. یک عدد پایین تر از TOPS در یک پلت فرم بالغ و به خوبی پشتیبانی می تواند یک بخش بالاتر از TOPS را در واقعیت سازمانی اگر اکوسیستم زمان اجرا و برنامه قوی تر است.

همچنین قابلیت حمل و نقل متقابل را در نظر بگیرید. اگر ابزار داخلی شما می تواند فرمت های مدل مشترک و زمان اجرا را هدف قرار دهد، قفل را کاهش می دهید و توانایی خود را برای تغییر سخت افزار در تازه سازی های آینده بهبود می بخشد.

راهنمای تفسیر عملی برای TOPS در خرید شرکت

درمان TOPS به عنوان یک سقف خشن، نه یک وعده. بالاتر می تواند کمک کند، اما تنها اگر حجم کار بتواند از دقت و اپراتورهایی که آن سقف را باز می کنند، استفاده کند، و فقط اگر پلت فرم عملکرد را در داخل قدرت و پاکت های حرارتی شما حفظ کند.

در عمل، TOPS زمانی معنی دار می شود که بتوانید آن را نقشه برداری کنید:

مدل ها و ویژگی هایی که می خواهید در سراسر ناوگان استاندارد سازی کنید

دقتی که می توانید بدون رگرسیون کیفیت به کار ببندید

یک معیار تکراری که تأخیر، عملکرد پایدار و تاثیر باتری را اندازه گیری می کند

پشتیبانی عملیاتی: رانندگان، به روز رسانی های زمان اجرا، تله متری و کنترل سیاست

اگر یک دستگاه بر روی آن ها پیروز شود، عدد TOPS احساس "واقعی" خواهد داشت. اگر آن را تنها بر روی یک ورق مشخصات برنده، شما برای سیلیکون که بیکار نشسته پرداخت.

چشم انداز نهایی برای تیم های IT

NPU ها در حال تبدیل شدن به یک بخش استاندارد از معماری نقطه انتهایی هستند، اما موفقیت تدارکات بستگی به امتناع از خرید در اعداد عنوان دارد. TOPS یک امتیاز جهانی نیست. این یک شخصیت نهایی است که با دقت، ساختار مدل، رفتار حافظه و بلوغ نرم افزار متفاوت است.

مزیت خریدار IT نظم و انضباط است: تعریف کار هدف خود را، اعتبار تخفیف، اندازه گیری تاخیر و تاثیر باتری، و نیاز به نظارت. وقتی این کار را انجام می دهید، ارزیابی NPU ها آسان تر از آن چیزی است که به نظر می رسند. شما بحث در مورد ادعاهای بازاریابی را متوقف می کنید و شروع به مقایسه نتایج می کنید: جلسات آرام تر، عمر باتری طولانی تر، تجربه کاربر پایدار و یک مسیر روشن تر برای ویژگی های AI دستگاه که در عملیات سازمانی مهم است.