Tại sự kiện AWS re:Invent, Amazon Web Services, Inc. (AWS) – một công ty con của Amazon.com, Inc. (NASDAQ: AMZN) và NVIDIA (NASDAQ: NVDA) hôm nay đã công bố việc mở rộng hợp tác chiến lược để cung cấp cơ sở hạ tầng, phần mềm và dịch vụ tiên tiến nhất nhằm hỗ trợ những đổi mới về trí tuệ nhân tạo tạo sinh (Generative AI) cho khách hàng của họ.
Các công ty này sẽ kết hợp những công nghệ tốt nhất của NVIDIA và AWS—từ các hệ thống đa node mới nhất của NVIDIA bao gồm GPU, CPU và phần mềm AI thế hệ tiếp theo, đến các giải pháp bảo mật và ảo hóa nâng cao của AWS Nitro System, kết nối Elastic Fabric Adapter (EFA) cũng như UltraCluster khả năng mở rộng—lý tưởng cho việc đào tạo các mô hình nền tảng và xây dựng các ứng dụng Generative AI.
Sự hợp tác mở rộng được xây dựng dựa trên mối quan hệ lâu dài đã thúc đẩy kỷ nguyên Generative AI bằng cách cung cấp cho những người tiên phong về học máy (ML) sớm hiệu suất tính toán cần thiết để nâng cao tính năng tiên tiến trong các công nghệ này.
Như một phần của sự hợp tác mở rộng nhằm tăng cường AI có khả năng tạo ra siêu năng lực trên tất cả các ngành:
- AWS sẽ là nhà cung cấp đám mây đầu tiên đưa Siêu chip NVIDIA GH200 Grace Hopper với công nghệ NVLink đa nút mới lên đám mây. Nền tảng đa nút NVIDIA GH200 NVL32 kết nối 32 Siêu chip Grace Hopper với công nghệ NVIDIA NVLink và NVSwitch vào một phiên bản. Nền tảng này sẽ có sẵn trên các phiên bản Amazon Elastic Computing Cloud (Amazon EC2) được kết nối với mạng mạnh mẽ (EFA) của Amazon, được hỗ trợ bởi ảo hóa nâng cao (AWS Nitro System) và phân cụm siêu quy mô (Amazon EC2 UltraClusters), cho phép các khách hàng chung mở rộng quy mô tới hàng nghìn siêu chip GH200.
- NVIDIA và AWS sẽ cộng tác để lưu trữ NVIDIA DGX Cloud—dịch vụ đào tạo AI của NVIDIA—trên AWS. Đây sẽ là Đám mây DGX đầu tiên có GH200 NVL32, cung cấp cho các nhà phát triển bộ nhớ dùng chung lớn nhất trong một phiên bản duy nhất. DGX Cloud trên AWS sẽ tăng tốc đào tạo AI tiên tiến và các mô hình ngôn ngữ lớn có thể đạt tới hơn 1 nghìn tỷ tham số.
- NVIDIA và AWS đang hợp tác trong Project Ceiba để xây dựng siêu máy tính AI hỗ trợ GPU nhanh nhất thế giới – một hệ thống quy mô lớn với kết nối GH200 NVL32 và Amazon EFA do AWS tổ chức cho nhóm nghiên cứu và phát triển của NVIDIA. Siêu máy tính đầu tiên này – có 16.384 Siêu chip NVIDIA GH200 và có khả năng xử lý 65 exaflop AI – sẽ được NVIDIA sử dụng để thúc đẩy làn sóng đổi mới AI tạo sinh tiếp theo của mình.
- AWS sẽ giới thiệu thêm ba phiên bản Amazon EC2 mới: phiên bản P5e, được hỗ trợ bởi NVIDIA H200 Tensor Core GPUs, dành cho khối lượng công việc AI và HPC tổng hợp quy mô lớn và tiên tiến, cũng như các phiên bản G6 và G6e, được hỗ trợ bởi NVIDIA L4 GPUs và NVIDIA L40S GPUs, tương ứng, dành cho một loạt ứng dụng như tinh chỉnh AI, suy luận, khối lượng công việc đồ họa và video. Phiên bản G6e đặc biệt thích hợp để phát triển quy trình làm việc 3D, bản sao kỹ thuật số và các ứng dụng khác sử dụng NVIDIA Omniverse, một nền tảng để kết nối và xây dựng các ứng dụng 3D tổng hợp hỗ trợ AI.
“AWS và NVIDIA đã hợp tác hơn 13 năm, bắt đầu với phiên bản đám mây GPU đầu tiên trên thế giới. Ngày nay, chúng tôi cung cấp nhiều giải pháp GPU NVIDIA nhất cho khối lượng công việc bao gồm đồ họa, chơi game, điện toán hiệu năng cao, machine learning và giờ đây là AI tổng hợp” Adam Selipsky – Giám đốc điều hành của AWS chia sẻ. “Chúng tôi tiếp tục đổi mới với NVIDIA để biến AWS trở thành nơi chạy GPU tốt nhất, kết hợp Siêu chip NVIDIA Grace Hopper thế hệ tiếp theo với mạng mạnh mẽ EFA của AWS, phân cụm siêu quy mô của EC2 UltraClusters và khả năng ảo hóa nâng cao của Nitro.”
Jensen Huang – người sáng lập và Giám đốc điều hành của NVIDIA cho biết: “Generative AI đang chuyển đổi khối lượng công việc trên đám mây và đặt điện toán tăng tốc làm nền tảng cho việc tạo ra nội dung đa dạng”.
“Được thúc đẩy bởi sứ mệnh chung là cung cấp AI tạo hiện đại, tiết kiệm chi phí cho mọi khách hàng, NVIDIA và AWS đang cộng tác trên toàn bộ hệ thống điện toán, mở rộng cơ sở hạ tầng AI, thư viện tăng tốc, mô hình nền tảng cho đến các dịch vụ AI tổng hợp ”
Các phiên bản Amazon EC2 mới kết hợp công nghệ tiên tiến nhất từ NVIDIA và AWS
AWS sẽ là nhà cung cấp đám mây đầu tiên cung cấp Siêu chip NVIDIA GH200 Grace Hopper với công nghệ NVLink đa nút. Mỗi Superchip GH200 kết hợp CPU Grace dựa trên Arm với GPU kiến trúc NVIDIA Hopper trên cùng một mô-đun. Một phiên bản Amazon EC2 duy nhất với GH200 NVL32 có thể cung cấp bộ nhớ dùng chung lên tới 20 TB để cung cấp năng lượng cho khối lượng công việc ở quy mô Terabyte.
Các phiên bản này sẽ tận dụng kết nối Elastic Fabric Adapter (EFA) thế hệ thứ ba của AWS, cung cấp tốc độ lên tới 400 Gbps trên mỗi Superchip với thông lượng mạng có độ trễ thấp, băng thông cao, cho phép khách hàng mở rộng quy mô lên tới hàng nghìn Siêu chip GH200 trong EC2 UltraClusters.
Các phiên bản AWS với GH200 NVL32 sẽ cung cấp cho khách hàng quyền truy cập theo yêu cầu vào hiệu năng cấp siêu máy tính, điều này rất quan trọng đối với khối lượng công việc AI/ML quy mô lớn cần được phân phối trên nhiều nút cho khối lượng công việc AI tổng hợp phức tạp—trải dài FM, hệ thống đề xuất và cơ sở dữ liệu vectơ.
Các phiên bản EC2 chạy trên nền tảng NVIDIA GH200 sẽ có bộ nhớ HBM3e 4,5 TB— tăng 7,2 lần so với các phiên bản EC2 P5d chạy trên nền tảng H100 thế hệ hiện tại— cho phép khách hàng chạy các mô hình lớn hơn, đồng thời cải thiện hiệu suất đào tạo. Ngoài ra, kết nối bộ nhớ CPU-GPU cung cấp băng thông cao hơn tới 7 lần so với PCIe, cho phép giao tiếp giữa chip với chip giúp mở rộng tổng bộ nhớ khả dụng cho các ứng dụng.
Phiên bản AWS với GH200 NVL32 sẽ là cơ sở hạ tầng AI đầu tiên trên AWS có tính năng làm mát bằng chất lỏng nhằm giúp đảm bảo các giá máy chủ dày đặc có thể hoạt động hiệu quả với hiệu suất tối đa.
Các phiên bản EC2 với GH200 NVL32 cũng sẽ được hưởng lợi từ Hệ thống AWS Nitro, nền tảng cơ bản cho các phiên bản EC2 thế hệ tiếp theo. Hệ thống Nitro giảm tải I/O cho các chức năng từ CPU/GPU chủ sang phần cứng chuyên dụng để mang lại hiệu suất ổn định hơn, đồng thời bảo mật nâng cao bảo vệ mã và dữ liệu của khách hàng trong quá trình xử lý.
AWS lần đầu tiên lưu trữ đám mây bằng NVIDIA DGX Cloud hỗ trợ bởi Grace Hopper
AWS sẽ hợp tác với NVIDIA để lưu trữ NVIDIA DGX Cloud được hỗ trợ bởi cơ sở hạ tầng GH200 NVL32 NVLink. NVIDIA DGX Cloud là dịch vụ siêu máy tính AI giúp doanh nghiệp truy cập nhanh vào siêu máy tính đa nút để đào tạo các mô hình LLM và AI tạo sinh phức tạp nhất, với phần mềm NVIDIA AI Enterprise tích hợp và quyền truy cập trực tiếp vào các chuyên gia AI của NVIDIA.
Siêu máy tính dự án lớn Ceiba được sử dụng để tăng cường phát triển AI của NVIDIA
Siêu máy tính Project Ceiba mà AWS và NVIDIA đang xây dựng sẽ được tích hợp với các dịch vụ AWS, chẳng hạn như mạng mã hóa Amazon Virtual Private Cloud (VPC) và bộ lưu trữ khối hiệu suất cao của Amazon Elastic Block Store, cho phép NVIDIA truy cập vào bộ khả năng AWS toàn diện.
NVIDIA sẽ sử dụng siêu máy tính để nghiên cứu và phát triển nhằm cải tiến AI cho LLM, đồ họa và mô phỏng, sinh học kỹ thuật số, robot, xe tự lái, dự đoán khí hậu Earth-2, v.v.
NVIDIA và AWS nâng cấp mạnh mẽ Generative AI, HPC, Thiết kế và Mô phỏng Để hỗ trợ quá trình phát triển, đào tạo và suy luận của các LLM lớn nhất, các phiên bản AWS P5e sẽ có GPU H200 mới nhất của NVIDIA cung cấp bộ nhớ GPU HBM3e 141 GB, lớn hơn 1,8 lần và nhanh hơn 1,4 lần so với GPU H100. Sự tăng cường bộ nhớ GPU này, cùng với tốc độ kết nối mạng EFA lên tới 3.200 Gbps do Hệ thống AWS Nitro hỗ trợ, sẽ cho phép khách hàng tiếp tục xây dựng, đào tạo và triển khai các mô hình tiên tiến của họ trên AWS.
Để cung cấp các giải pháp tiết kiệm năng lượng, tiết kiệm chi phí cho khối lượng công việc video, AI và đồ họa, AWS đã công bố các phiên bản Amazon EC2 G6e mới có GPU NVIDIA L40S và phiên bản G6 được hỗ trợ bởi GPU L4. Các dịch vụ mới có thể giúp các công ty khởi nghiệp, doanh nghiệp và nhà nghiên cứu đáp ứng nhu cầu về AI và đồ họa có độ trung thực cao.
Phiên bản G6e được xây dựng để xử lý các khối lượng công việc phức tạp như AI tạo sinhvà ứng dụng bản sao kỹ thuật số. Bằng cách sử dụng NVIDIA Omniverse, mô phỏng 3D quang học có thể được phát triển, ngữ cảnh hóa và nâng cao bằng cách sử dụng dữ liệu thời gian thực từ các dịch vụ như AWS IoT TwinMaker, chatbot thông minh, trợ lý, tìm kiếm và tóm tắt. Amazon Robotics và Amazon Fulfillment Center sẽ có thể tích hợp cặp song sinh kỹ thuật số được xây dựng bằng NVIDIA Omniverse và AWS IoT TwinMaker để tối ưu hóa thiết kế và quy trình kho hàng, đào tạo thêm trợ lý robot thông minh hơn và cải thiện việc giao hàng cho khách hàng.
GPU L40S cung cấp hiệu suất FP8 lên tới 1,45 petaflop và có lõi Ray Tracing cung cấp hiệu suất dò tia lên tới 209 teraflop. GPU L4 có trong các phiên bản G6 sẽ mang lại giải pháp tiết kiệm năng lượng, chi phí thấp hơn để triển khai các mô hình AI nhằm xử lý ngôn ngữ tự nhiên, dịch ngôn ngữ, phân tích hình ảnh và video AI, nhận dạng giọng nói và cá nhân hóa. GPU L40S cũng tăng tốc khối lượng công việc đồ họa, chẳng hạn như tạo và hiển thị đồ họa thời gian thực, chất lượng điện ảnh và phát trực tuyến trò chơi. Tất cả ba phiên bản sẽ được bán ra trong năm tới.
Phần mềm NVIDIA trên AWS tăng cường phát triển AI sáng tạo
Ngoài ra, NVIDIA đã công bố phần mềm trên AWS để thúc đẩy quá trình phát triển Generative AI. NVIDIA NeMo Retriever microservice sẽ cung cấp các công cụ mới để tạo ra chatbot và công cụ tổng hợp có độ chính xác cao bằng cách sử dụng khả năng truy xuất ngữ nghĩa được tăng tốc. NVIDIA BioNeMo, đã có mặt trên Amazon SageMaker và sắp có mặt trên AWS trên NVIDIA DGX Cloud sẽ cho phép các công ty dược phẩm tăng tốc độ phát triển thuốc bằng cách đơn giản hóa và tăng tốc việc đào tạo các mô hình bằng cách sử dụng dữ liệu của chính họ.
Phần mềm NVIDIA trên AWS đang giúp Amazon mang đến những cải tiến mới cho các dịch vụ và hoạt động của mình. AWS đang sử dụng NVIDIA NeMo framework để đào tạo các LLM Amazon Titan thế hệ tiếp theo được chọn lọc. Amazon Robotics đã và đang tận dụng NVIDIA Omniverse Isaac để xây dựng bản sao kỹ thuật số nhằm tự động hóa, tối ưu hóa và lập kế hoạch cho các kho tự trị của mình trong môi trường ảo trước khi triển khai chúng vào thế giới thực.