NVIDIA đã công bố siêu máy tính AI thế hệ tiếp theo mang tên NVIDIA DGX SuperPOD™ được hỗ trợ bởi NVIDIA GB200 Grace Blackwell Superchips để xử lý các mô hình nghìn tỷ thông số với thời gian hoạt động liên tục cho khối lượng công việc suy luận và đào tạo AI tạo sinh siêu quy mô.
Nổi bật với kiến trúc quy mô giá đỡ mới, hiệu quả cao, làm mát bằng chất lỏng, DGX SuperPOD mới được xây dựng với hệ thống NVIDIA DGX™ GB200 và cung cấp 11,5 exaflop siêu máy tính AI ở độ chính xác FP4 và bộ nhớ nhanh 240 terabyte — mở rộng lên nhiều hơn với các giá đỡ bổ sung .
Mỗi hệ thống DGX GB200 có 36 Siêu chip NVIDIA GB200 — bao gồm 36 CPU NVIDIA Grace và 72 GPU NVIDIA Blackwell — được kết nối thành một siêu máy tính thông qua NVIDIA NVLink® thế hệ thứ năm. Siêu chip GB200 mang lại hiệu suất tăng gấp 30 lần so với GPU NVIDIA H100 Tensor Core cho khối lượng công việc suy luận mô hình ngôn ngữ lớn (LLM).
Jensen Huang, người sáng lập và Giám đốc điều hành của NVIDIA cho biết: “Siêu máy tính NVIDIA DGX AI là nhà máy của cuộc cách mạng công nghiệp AI”. “DGX SuperPOD mới kết hợp những tiến bộ mới nhất trong điện toán, mạng và phần mềm tăng tốc của NVIDIA để cho phép mọi công ty, ngành và quốc gia tinh chỉnh và tạo ra AI của riêng họ.”
DGX SuperPOD được hỗ trợ bởi Grace Blackwell có tám hệ thống DGX GB200 trở lên và có thể mở rộng tới hàng chục nghìn Siêu chip GB200 được kết nối qua NVIDIA Quantum InfiniBand. Để có không gian bộ nhớ dùng chung khổng lồ nhằm cung cấp năng lượng cho các mô hình AI thế hệ tiếp theo, khách hàng có thể triển khai cấu hình kết nối 576 GPU Blackwell trong 8 hệ thống DGX GB200 được kết nối qua NVLink.
Kiến trúc DGX SuperPOD quy mô giá đỡ mới cho kỷ nguyên AI tạo sinh DGX SuperPOD mới với hệ thống DGX GB200 có kết cấu tính toán thống nhất. Ngoài NVIDIA NVLink thế hệ thứ năm, kết cấu này còn bao gồm DNVIDIA BlueField®-3 DPU và sẽ hỗ trợ mạng NVIDIA Quantum-X800 InfiniBand, được công bố riêng trong hôm nay. Kiến trúc này cung cấp băng thông lên tới 1.800 gigabyte mỗi giây cho mỗi GPU trong nền tảng.
Ngoài ra, Công nghệ Giao thức Giảm thiểu và Tổng hợp phân cấp có thể mở rộng NVIDIA (NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol SHARP™) thế hệ thứ tư mang đến 14,4 teraflop Điện toán trong mạng, tăng gấp 4 lần trong kiến trúc DGX SuperPOD thế hệ tiếp theo so với thế hệ trước.
Kiến trúc chìa khóa trao tay kết hợp với phần mềm nâng cao để có thời gian hoạt động chưa từng có
DGX SuperPOD mới là siêu máy tính AI hoàn chỉnh, quy mô trung tâm dữ liệu, tích hợp với bộ lưu trữ hiệu suất cao từ các đối tác được NVIDIA chứng nhận để đáp ứng nhu cầu về khối lượng công việc AI tạo sinh. Mỗi thiết bị đều được chế tạo, nối cáp và thử nghiệm tại nhà máy để tăng tốc độ triển khai đáng kể tại các trung tâm dữ liệu của khách hàng.
DGX SuperPOD do Grace Blackwell hỗ trợ có khả năng quản lý dự đoán thông minh để liên tục giám sát hàng nghìn điểm dữ liệu trên phần cứng và phần mềm nhằm dự đoán và chặn các nguồn gây ra thời gian ngừng hoạt động và hoạt động kém hiệu quả — tiết kiệm thời gian, năng lượng và chi phí điện toán.
Phần mềm có thể xác định các khu vực cần quan tâm và lập kế hoạch bảo trì, điều chỉnh linh hoạt tài nguyên điện toán cũng như tự động lưu và tiếp tục công việc để ngăn chặn thời gian ngừng hoạt động, ngay cả khi không có quản trị viên hệ thống có mặt.
Nếu phần mềm phát hiện cần có linh kiện thay thế, cluster sẽ kích hoạt dung lượng dự phòng để đảm bảo công việc hoàn thành đúng thời hạn. Mọi thay thế phần cứng cần thiết đều có thể được lên lịch để tránh thời gian ngừng hoạt động ngoài dự kiến.
Siêu máy tính AI tiên tiến của NVIDIA DGX B200 Systems dành cho các ngành công nghiệp
NVIDIA cũng tiết lộ hệ thống NVIDIA DGX B200,, một nền tảng siêu máy tính AI thống nhất để đào tạo, tinh chỉnh và suy luận mô hình AI.
DGX B200 là thế hệ thứ sáu của thiết kế DGX gắn trên giá truyền thống, làm mát bằng không khí, được các ngành công nghiệp trên toàn thế giới sử dụng. Hệ thống DGX SuperPOD kiến trúc Blackwell mới bao gồm tám GPU NVIDIA Blackwell và hai bộ xử lý Intel® Xeon® thế hệ thứ 5. Khách hàng cũng có thể xây dựng DGX SuperPOD bằng cách sử dụng hệ thống DGX B200 để tạo ra Trung tâm AI xuất sắc có thể hỗ trợ công việc của các nhóm nhà phát triển lớn đảm nhận nhiều công việc khác nhau.
Các hệ thống DGX B200 bao gồm tính năng chính xác FP4 trong kiến trúc Blackwell mới, cung cấp hiệu suất AI lên tới 144 petaflop, bộ nhớ GPU khổng lồ 1,4TB và băng thông bộ nhớ 64TB/s. Điều này mang lại khả năng suy luận thời gian thực nhanh hơn 15 lần cho các mô hình nghìn tỷ tham số so với thế hệ trước.
Hệ thống DGX B200 bao gồm kết nối mạng tiên tiến với tám NVIDIA ConnectX™-7 NIC và hai BlueField-3 DPU.. Chúng cung cấp băng thông lên tới 400 gigabit/giây cho mỗi kết nối – mang lại hiệu suất AI nhanh chóng với các nền tảng mạng NVIDIA Quantum-2 InfiniBand và NVIDIA Spectrum™-X Ethernet
Hỗ trợ phần mềm và chuyên gia để mở rộng quy mô sản xuất AI
Tất cả các nền tảng NVIDIA DGX đều bao gồm phần mềm NVIDIA AI Enterprise để phát triển và triển khai ở cấp doanh nghiệp. Khách hàng của DGX có thể tăng tốc công việc của họ với các mô hình nền tảng, khung, bộ công cụ NVIDIA đã được đào tạo trước và các dịch vụ vi mô NVIDIA NIM mới có trong nền tảng phần mềm.
Các chuyên gia NVIDIA DGX và các đối tác NVIDIA chọn lọc được chứng nhận để hỗ trợ nền tảng DGX hỗ trợ khách hàng trong từng bước triển khai để họ có thể nhanh chóng đưa AI vào sản xuất. Sau khi hệ thống đi vào hoạt động, các chuyên gia của DGX tiếp tục hỗ trợ khách hàng tối ưu hóa quy trình và cơ sở hạ tầng AI của họ.
Tính khả dụng
NVIDIA DGX SuperPOD với hệ thống DGX GB200 và DGX B200 dự kiến sẽ có mặt trên thị trường vào cuối năm nay từ các đối tác toàn cầu của NVIDIA.
Để biết thêm thông tin, hãy xem lại bài phát biểu quan trọng của GTC hoặc ghé thăm gian hàng NVIDIA tại GTC.