عملکرد AMD MI300 - سریعتر از H100، اما چقدر؟

امروز بالاخره MI300X منتشر شد و با صدای بلند منتشر شد. مشتریان زیادی اعلام شده‌اند که در اینجا درباره حجم و ASP آن صحبت کردیم، از جمله افرادی مانند اوراکل، متا و مایکروسافت. ما پیکربندی و معماری را در ماه ژوئن ارسال کردیم، بنابراین در حالی که جزئیات معماری سطح پایین جدیدی در پایان این امروز وجود دارد، ما بیشتر روی عملکرد، هزینه و نرم افزار تمرکز خواهیم کرد. همچنین خبرهای بزرگ در مورد اتحاد ضد انویدیا AMD + Broadcom.

در مشخصات خام، MI300X با 30 درصد FP8 FLOPS بیشتر، 60 درصد پهنای باند حافظه بیشتر و بیش از 2 برابر ظرفیت حافظه بر H100 غالب است. البته MI300X در مقابل H200 فروش بیشتری دارد که شکاف پهنای باند حافظه را به محدوده تک رقمی و ظرفیت به کمتر از 40 درصد کاهش می دهد. متأسفانه MI300X تنها توانست به 5.3 ترابایت بر ثانیه پهنای باند حافظه را به جای 5.6 ترابایت بر ثانیه که در ابتدا هدف گذاری شده بود، برساند.

البته FLOPS، ظرفیت و پهنای باند فقط قابلیت‌های بالقوه هستند. AMD چند بنچمارک مختلف را نشان داد، موضوع اصلی این است که آنها هنوز در مقایسه با عملکرد تئوری کمی پایین‌تر هستند.

FlashAttention2 – این فقط پاس رو به جلو است، استنتاج IE، نه آموزش. قابل توجه است زیرا تقریباً هر بنچمارکی که AMD به اشتراک می‌گذارد فقط پاس رو به جلو بود. مزیت عملکرد 10٪ تا 20٪ است، بسیار کمتر از مشخصات خام.

LLAMA2-70B – باز هم پاس رو به جلو فقط برای کرنل های خاص، نه مدل کامل، و دوباره 10% تا 20% عملکرد. اینها بیشتر بارهای کاری محدود به محاسبه هستند، نه محدود به حافظه.

استنتاج از سوی دیگر، AMD دو معیار استنتاج متفاوت را نشان داد، یکی اندازه و توان عملیاتی بالا و دیگری کمترین تأخیر ممکن بود.

بلوم – این معیار از همه آنها چشمگیرتر است، اما ما فکر می کنیم یکی از ترفندهای کلاسیکی است که دیده ایم شرکت های دیگر در هنگام داشتن مزیت ظرفیت حافظه انجام می دهند. از مدلی استفاده کنید که به سختی در سیستم استنتاج قرار می گیرد، در این مورد، بلوم کمی بیش از 350 گیگابایت حافظه 640 گیگابایتی که H100 HGX دارد، می گیرد. سپس از طول توالی ورودی بسیار بزرگ (در این مورد 2k) نسبت به تعداد توکن خروجی (100) استفاده می کنید. سیستمی که حجم حافظه کمتری دارد، مجبور می شود با حجم بسیار کمتری اجرا شود زیرا KVCache تمام ظرفیت حافظه را اشغال می کند. در همین حال، AMD می تواند از یک اندازه بزرگتر برای استفاده از محاسبات خود استفاده کند. برای روشن بودن، این یک مزیت واقعی است و سناریوی متمرکز بر توان عملیاتی واقعی است.

LLAMA 2-70B – این یک معیار استنتاج واقعی تر برای اکثر موارد استفاده است. AMD دارای 40٪ مزیت تاخیر است که با توجه به مزیت پهنای باند 60٪ در مقایسه با H100 بسیار منطقی است. با توجه به اینکه H200 از نظر پهنای باند بسیار نزدیکتر است، انتظار داریم عملکرد مشابهی داشته باشد. توجه داشته باشید که AMD از VLLM برای انویدیا استفاده کرده است که بهترین پشته باز برای توان پردازشی است، اما منبع بسته TensorRT LLM انویدیا به همان اندازه آسان برای استفاده است و تا حدودی تاخیر بهتری در H100 دارد.

آخرین معیار LLAMA 2 -13B است. بهبود عملکرد در اینجا 20٪ است، در اینجا چیز زیادی نمی توان به آن اشاره کرد. MI300X ارزان تر است. H200 احتمالاً شکاف را می بندد.

AMD در اینجا کمی ضعف در بخش نرم افزاری خود نشان می دهد. آنها تنها کمتر از 30 درصد از FLOPS های نظری را که MI300 توانایی دارد، به دست می آورند. در همین حال انویدیا اغلب به 40 درصد می رسد. به طوری که چنین عملکردی وجود ندارد.

عملکرد آنها به چند دلیل با Nvidia مطابقت دارد. یکی از دلایل اصلی این است که AMD فقط نیمی از FLOPS نظری را در بارهای کاری خام GEMM دریافت می کند. مورد دیگر این است که FlashAttention2 هنوز روی پاس به عقب به خوبی کار نمی کند. حافظه نهان L1 AMD دو برابر شده است، اما LDS هنوز هم اندازه است. کار کردن FA2 در مقابل حافظه مشترک بزرگتر انویدیا همچنان سخت تر است.

در طول زمان، ما انتظار داریم که این به طور معناداری بهبود یابد. این نقطه روشن بزرگ برای این اعداد است، ما شاهد بهبود سریع AMD هستیم.
به طور کلی، ما شاهد بهبود عملکرد تریتون هستیم، به خصوص برای GEMM خام.

این یک معامله بزرگ است زیرا OpenAI و مایکروسافت به شدت از AMD MI300 برای استنتاج استفاده خواهند کرد.

همچنین، برای روشن بودن حالت اشتیاق و torch.compile فقط برای اکثر مدل‌ها در آموزش، تنظیم دقیق و استنتاج برای اکثر مدل‌های موجود کار می‌کنند، اما چیزی که کمبود دارد بهینه‌سازی عملکرد است. ما شاهد وقوع آن هستیم.