HomeCông NghệAMD Instinct MI355X vượt mốc 1 triệu token mỗi giây trong bài...

AMD Instinct MI355X vượt mốc 1 triệu token mỗi giây trong bài kiểm tra MLPerf 6.0

Published on

GPU AMD Instinct MI355X đạt hơn 1 triệu token/giây tại MLPerf 6.0, khẳng định sức mạnh xử lý suy luận AI và khả năng mở rộng hệ thống đa nút.

Tập đoàn AMD vừa công bố kết quả đánh giá MLPerf Inference 6.0, ghi nhận bước tiến kỹ thuật quan trọng của dòng vi xử lý đồ họa (GPU) Instinct MI355X. Phần cứng mới được xây dựng dựa trên kiến trúc CDNA 4 tiên tiến, sử dụng tiến trình 3nm với 185 tỷ bóng bán dẫn. Thiết bị hỗ trợ nguyên bản các định dạng dữ liệu FP4, FP6 và tích hợp cấu trúc bộ nhớ HBM3E dung lượng lên đến 288GB. Nền tảng được thiết kế theo tiêu chuẩn UBB8, cung cấp các tùy chọn tản nhiệt bằng không khí hoặc chất lỏng trực tiếp, tối ưu hóa không gian triển khai cho các mô hình ngôn ngữ lớn và hệ thống máy chủ suy luận hiệu năng cao.

Đột phá hiệu năng và khả năng xử lý đa mô hình

Tại vòng thử nghiệm này, hệ thống máy chủ trang bị GPU MI355X chính thức vượt qua ngưỡng 1 triệu token/giây. Thành tích này được thiết lập trên mô hình Llama 2 70B và GPT-OSS-120B ở quy mô đa nút. Hiệu suất xử lý của phiên bản mới cao gấp 3,1 lần so với thế hệ MI325X tiền nhiệm ra mắt cách đây sáu tháng. Khi đối chiếu trực tiếp với phần cứng đối thủ, nền tảng của AMD thể hiện sức mạnh cạnh tranh sòng phẳng.

Infographic shows MI355X surpassing 1 million tokens/sec in MLPerf 6.0 across Llama 2-70B and GPT-OSS-120B workloads

Trên mô hình Llama 2 70B, hệ thống MI355X đơn nút đạt hiệu suất tương đương 97% bài kiểm tra Server và 119% bài kiểm tra Interactive của thiết bị Nvidia B200, đồng thời duy trì khoảng cách sát sao với mẫu B300 cao cấp. Bên cạnh các mô hình ngôn ngữ lớn quen thuộc, AMD mở rộng phạm vi đánh giá sang tác vụ trí tuệ nhân tạo tạo sinh video với mô hình Wan-2.2-t2v. Hệ thống ghi nhận mức hiệu năng đạt 93% so với B200 ở hạng mục Single Stream ngay trong đợt chạy thử nghiệm đầu tiên.

Tối ưu hóa mở rộng cụm máy chủ và kết nối đa nút

Khả năng duy trì hiệu suất khi mở rộng quy mô cụm máy chủ là điểm nhấn kỹ thuật quan trọng thứ hai. Đối với bài kiểm tra Llama 2 70B, nhà sản xuất cấu hình thành công cụm 11 nút chứa 87 GPU MI355X, mang lại kết quả 1.042.110 token/giây ở hạng mục Offline. Hệ thống duy trì mức hiệu suất mở rộng tuyến tính đạt 93% ở hạng mục Server. Đối với mô hình GPT-OSS-120B, cụm 12 nút tích hợp 94 GPU cũng đạt tỷ lệ hiệu quả 93%, chứng minh khả năng ổn định sức mạnh tính toán khi gia tăng số lượng thiết bị phần cứng.

Bar chart shows MI355X FP4 reaching 100,282 tokens/sec vs MI325X FP8 at 32,028, up to 3.1x higher throughput

Hệ sinh thái đối tác phần cứng của hãng thể hiện sự đồng bộ cao khi 9 nhà sản xuất lớn như Dell, Supermicro, HPE tham gia đánh giá độc lập và tái tạo kết quả với độ lệch chỉ dao động từ 1% đến 4%. Nổi bật nhất, Dell và MangoBoost thiết lập thành công hệ thống máy chủ suy luận hỗn hợp đầu tiên, kết hợp ba dải sản phẩm GPU MI300X, MI325X và MI355X đặt tại hai trung tâm dữ liệu cách biệt địa lý ở Mỹ và Hàn Quốc.

Bar charts show MI355X vs NVIDIA B200/B300 with up to 119% interactive performance and near parity in other modes

Tầm quan trọng của nền tảng ROCm và định hướng tương lai

Toàn bộ cụm hệ thống phần cứng được điều phối và tối ưu hóa triệt để thông qua bộ công cụ phần mềm ROCm. Nền tảng này trực tiếp hỗ trợ thực thi định dạng khối dữ liệu FP4, quản lý hệ thống giao tiếp băng thông rộng giữa các GPU và phân bổ khối lượng công việc linh hoạt trên cụm máy chủ không đồng nhất. Kết quả từ hệ thống đánh giá MLPerf 6.0 củng cố tính khả thi của lộ trình phát hành thiết bị thường niên do hãng đề ra.

Infographic shows 9 partners including Dell, Cisco, HPE achieving consistent MI355X performance within 4% across submissions

Nhằm đáp ứng nhu cầu tăng trưởng mạnh mẽ của cơ sở hạ tầng trí tuệ nhân tạo, nhà sản xuất bán dẫn lên kế hoạch trình làng dòng sản phẩm Instinct MI400 dựa trên vi kiến trúc CDNA 5 vào năm 2026. Thế hệ phần cứng mới sẽ đóng vai trò trung tâm xử lý cho nền tảng máy chủ quy mô tủ mạng AMD Helios, định hình cấu trúc trung tâm dữ liệu AI thương mại trong giai đoạn tiếp theo.

tin mới nhất

Người dùng có thể kích hoạt sớm tính năng Nvidia Dynamic Multi-Frame Generation qua OTA

Tính năng Nvidia Dynamic Multi-Frame Generation có thể được kích hoạt sớm qua bản...

Lexar hướng tới lưu trữ AI, kỷ niệm 30 năm

Đánh dấu cột mốc ba thập kỷ phát triển, Lexar không chỉ nhìn lại...

Bo mạch chủ Asus ROG X870E APEX đạt mức ép xung DDR5-8800 trên Ryzen 9 9950X3D2

Asus ROG X870E APEX vừa thể hiện khả năng ép xung bộ nhớ đạt...

DJI ra mắt flycam Avata 360 hỗ trợ quay video 360 độ 8K HDR 60fps

DJI chính thức giới thiệu thiết bị bay không người lái Avata 360 với...

AMD ra mắt chip Ryzen 9 9950X3D2 Dual Edition với bộ nhớ đệm 208 MB

AMD ra mắt Ryzen 9 9950X3D2 Dual Edition sở hữu bộ nhớ đệm 208...

tin liên quan

AMD ra mắt chip Ryzen 9 9950X3D2 Dual Edition với bộ nhớ đệm 208 MB

AMD ra mắt Ryzen 9 9950X3D2 Dual Edition sở...

AMD bổ sung FSR 4.1 cho Radeon RX 9000 qua driver Adrenalin 26.3.1

Driver mới của AMD hỗ trợ FSR 4.1 cho...

AMD ra mắt dòng APU máy bàn Ryzen AI 400 hỗ trợ socket AM5 và 50 TOPS

AMD chính thức giới thiệu dòng APU máy bàn...