Hiệu năng Nvidia GB300 Blackwell Ultra vượt trội GB200 trong các tác vụ DeepSeek

Hệ thống máy chủ Nvidia GB300 NVL72 ghi nhận hiệu suất tối ưu so với thế hệ GB200 khi xử lý các mô hình ngôn ngữ DeepSeek mã nguồn mở.

Tối ưu hóa khả năng xử lý ngữ cảnh dài trên hệ thống máy chủ

Nvidia đang dồn toàn lực vào việc cung cấp hiệu năng tối ưu cho các tác vụ đòi hỏi khả năng xử lý ngữ cảnh dài, nhằm mục tiêu chiếm lĩnh thị trường trong kỷ nguyên trí tuệ nhân tạo tác vụ (agentic AI). Theo các báo cáo kỹ thuật gần đây, kiến trúc Blackwell Ultra mang lại sự đột phá lớn với mức tăng thông lượng trên mỗi megawatt điện năng tiêu thụ lên tới 50 lần khi so sánh trực tiếp với các vi xử lý đồ họa thuộc kiến trúc Hopper. Điều này đạt được thông qua phương pháp thiết kế đồng bộ phần cứng và phần mềm cực hạn của hãng.

A partially open server rack displays NVIDIA hardware components and cabling inside.

Mới đây, Tổ chức Hệ thống Mô hình Lớn (LMSYS) đã tiến hành các bài kiểm tra chuyên sâu đối với hệ thống máy chủ GB300 NVL72 cho các tác vụ suy luận ngữ cảnh dài trên nền tảng mã nguồn mở DeepSeek. Kết quả ban đầu cho thấy những tín hiệu khả quan. Quá trình thử nghiệm này bao gồm cả việc áp dụng các phương pháp định tuyến phần mềm ở cấp độ cơ sở hạ tầng. Do các khối lượng công việc xử lý ngữ cảnh dài thường tạo ra áp lực lớn lên dung lượng bộ nhớ video (VRAM) của vi xử lý đồ họa, đội ngũ chuyên gia tại LMSYS đã tích hợp cơ chế phân tách Prefill-Decode (PD Disaggregation).

Đây là một cơ chế kỹ thuật được sử dụng rộng rãi nhằm duy trì độ ổn định của hệ thống ngữ cảnh mã thông báo (token) ở quy mô lớn. Cơ chế phân tách PD sẽ tiến hành chia nhỏ khối lượng công việc và phân bổ qua nhiều nút phần cứng khác nhau nhằm mục đích loại bỏ hoàn toàn tình trạng nghẽn cổ chai dữ liệu. Giai đoạn tiền xử lý (prefill) dữ liệu đầu vào, cùng với giai đoạn giải mã (decode) dùng để tạo ra các mã thông báo, đều được vận hành mượt mà thông qua sự phân tách này.

Kết quả cuối cùng là hệ thống đạt được sự cải thiện tỷ lệ thông lượng tổng thể khi hoạt động ở quy mô lớn. Nhóm nghiên cứu LMSYS cũng triển khai hàng loạt kỹ thuật tối ưu hóa chuyên sâu khác, điển hình như phương pháp phân chia dữ liệu động nhằm nâng cao tốc độ phản hồi câu lệnh trong các cửa sổ ngữ cảnh dài, kết hợp với kỹ thuật chuyển đổi dung lượng bộ nhớ đệm khóa-giá trị một cách hiệu quả.

Khoảng cách hiệu năng và bài toán chi phí đầu tư hạ tầng

Khi tiến hành đánh giá những bước tiến về hiệu năng giữa các thế hệ phần cứng, nhóm nghiên cứu đã ghi nhận các kết quả chuẩn phân tích thông lượng, dung lượng và tỷ lệ độ trễ. Sự chênh lệch sức mạnh giữa hai hệ thống máy chủ Nvidia GB300 NVL72 và GB200 NVL72 được thể hiện qua các thông số kỹ thuật cụ thể. Thông lượng tối đa của thế hệ mới đạt mức 226,2 mã thông báo mỗi giây trên một vi xử lý đồ họa (TPS/GPU), tương đương mức tăng 1,53 lần.

A bar chart titled 'GB300 vs GB200: Max TPS/GPU' shows GB300 outperforming GB200 with 226.2 TPS/User when MTP is off and

Tốc độ phản hồi tới người dùng cuối cũng ghi nhận sự nâng cấp mạnh mẽ với mức tăng 1,87 lần thông qua công nghệ dự đoán đa mã thông báo. Đồng thời, hệ thống đạt tỷ lệ chiến thắng về độ trễ là 1,58 lần. Theo phân tích từ LMSYS, máy chủ GB300 trung bình duy trì khoảng cách dẫn trước từ 1,4 đến 1,5 lần so với thiết bị tiền nhiệm GB200, đặc biệt phát huy tác dụng trong các kịch bản vận hành nhạy cảm với độ trễ. Dựa trên định hướng khai thác các khối lượng công việc AI tác vụ, kiến trúc Blackwell Ultra hiện là nền tảng phần cứng chiếm ưu thế cao nhất để gia tăng hiệu suất.

Dù các thiết bị Blackwell Ultra đang chứng tỏ sự thống trị tuyệt đối về thông số độ trễ và thông lượng xử lý, giới chuyên gia trong ngành công nghiệp máy chủ vẫn chưa đưa ra các thảo luận chi tiết về số liệu tổng chi phí sở hữu (TCO). Điều này xuất phát từ thực tế là chi phí triển khai cho hệ thống GB300 đã gia tăng tỷ lệ thuận với sức mạnh tính toán. Cách tiếp cận của Nvidia qua từng thế hệ sản phẩm cho thấy hãng tập trung song song vào việc nâng cấp cấu trúc phần cứng và nỗ lực giải quyết các điểm nghẽn đặc thù của ngành công nghiệp.

Đối với dòng sản phẩm Blackwell Ultra, các chỉ số đo lường độ trễ đã ghi nhận sự cải thiện đáng kể. Đây là nguyên nhân cốt lõi khiến GB300 đang nổi lên như một sự lựa chọn ưu tiên hàng đầu dành cho các nhà cung cấp dịch vụ đám mây quy mô siêu lớn cũng như các nền tảng điện toán đám mây thế hệ mới khi vận hành AI tác vụ.

Nguồn: wccftech

Hiệu năng Nvidia GB300 Blackwell Ultra vượt trội GB200 trong các tác vụ DeepSeek

Hệ thống máy chủ Nvidia GB300 NVL72 ghi nhận hiệu suất tối ưu so với thế hệ GB200 khi xử lý các mô hình ngôn ngữ DeepSeek mã nguồn mở.

tin mới nhất

Apple trang bị chip mạng MediaTek cho MacBook Neo

Asus ra mắt ba màn hình ROG Strix OLED mới hỗ trợ tần số quét 280Hz

AMD công bố công nghệ nâng cấp hình ảnh FSR Diamond hỗ trợ dự án Project Helix

Gigabyte ra mắt bo mạch chủ Z890 Plus hỗ trợ chip Arrow Lake Refresh

ASUS Republic of Gamers mở đặt trước ROG Flow Z13-KJP tại Việt Nam

tin liên quan

Nvidia và Dassault Systèmes hợp tác thúc đẩy AI công nghiệp và bản sao kỹ thuật số

Nvidia ra mắt mô hình Nemotron 3 Super mã nguồn mở tối ưu cho OpenClaw

NVIDIA tung bộ mô hình Earth‑2 mở hoàn toàn cho dự báo thời tiết AI

NVIDIA ra mắt DLSS 4.5 với công nghệ tạo khung hình 6x và Dynamic Frame-Gen

Máy chủ NVIDIA GB300 dự kiến tăng trưởng mạnh, dẫn đầu hạ tầng AI năm 2026

NVIDIA ra mắt RTX PRO 5000 72GB Blackwell mở rộng tùy chọn bộ nhớ cho máy trạm AI

FOLLOW US