HomeCông NghệHiệu năng Nvidia GB300 Blackwell Ultra vượt trội GB200 trong các tác...

Hiệu năng Nvidia GB300 Blackwell Ultra vượt trội GB200 trong các tác vụ DeepSeek

Published on

Hệ thống máy chủ Nvidia GB300 NVL72 ghi nhận hiệu suất tối ưu so với thế hệ GB200 khi xử lý các mô hình ngôn ngữ DeepSeek mã nguồn mở.

Tối ưu hóa khả năng xử lý ngữ cảnh dài trên hệ thống máy chủ

Nvidia đang dồn toàn lực vào việc cung cấp hiệu năng tối ưu cho các tác vụ đòi hỏi khả năng xử lý ngữ cảnh dài, nhằm mục tiêu chiếm lĩnh thị trường trong kỷ nguyên trí tuệ nhân tạo tác vụ (agentic AI). Theo các báo cáo kỹ thuật gần đây, kiến trúc Blackwell Ultra mang lại sự đột phá lớn với mức tăng thông lượng trên mỗi megawatt điện năng tiêu thụ lên tới 50 lần khi so sánh trực tiếp với các vi xử lý đồ họa thuộc kiến trúc Hopper. Điều này đạt được thông qua phương pháp thiết kế đồng bộ phần cứng và phần mềm cực hạn của hãng.

A partially open server rack displays NVIDIA hardware components and cabling inside.

Mới đây, Tổ chức Hệ thống Mô hình Lớn (LMSYS) đã tiến hành các bài kiểm tra chuyên sâu đối với hệ thống máy chủ GB300 NVL72 cho các tác vụ suy luận ngữ cảnh dài trên nền tảng mã nguồn mở DeepSeek. Kết quả ban đầu cho thấy những tín hiệu khả quan. Quá trình thử nghiệm này bao gồm cả việc áp dụng các phương pháp định tuyến phần mềm ở cấp độ cơ sở hạ tầng. Do các khối lượng công việc xử lý ngữ cảnh dài thường tạo ra áp lực lớn lên dung lượng bộ nhớ video (VRAM) của vi xử lý đồ họa, đội ngũ chuyên gia tại LMSYS đã tích hợp cơ chế phân tách Prefill-Decode (PD Disaggregation).

Đây là một cơ chế kỹ thuật được sử dụng rộng rãi nhằm duy trì độ ổn định của hệ thống ngữ cảnh mã thông báo (token) ở quy mô lớn. Cơ chế phân tách PD sẽ tiến hành chia nhỏ khối lượng công việc và phân bổ qua nhiều nút phần cứng khác nhau nhằm mục đích loại bỏ hoàn toàn tình trạng nghẽn cổ chai dữ liệu. Giai đoạn tiền xử lý (prefill) dữ liệu đầu vào, cùng với giai đoạn giải mã (decode) dùng để tạo ra các mã thông báo, đều được vận hành mượt mà thông qua sự phân tách này.

Kết quả cuối cùng là hệ thống đạt được sự cải thiện tỷ lệ thông lượng tổng thể khi hoạt động ở quy mô lớn. Nhóm nghiên cứu LMSYS cũng triển khai hàng loạt kỹ thuật tối ưu hóa chuyên sâu khác, điển hình như phương pháp phân chia dữ liệu động nhằm nâng cao tốc độ phản hồi câu lệnh trong các cửa sổ ngữ cảnh dài, kết hợp với kỹ thuật chuyển đổi dung lượng bộ nhớ đệm khóa-giá trị một cách hiệu quả.

Khoảng cách hiệu năng và bài toán chi phí đầu tư hạ tầng

Khi tiến hành đánh giá những bước tiến về hiệu năng giữa các thế hệ phần cứng, nhóm nghiên cứu đã ghi nhận các kết quả chuẩn phân tích thông lượng, dung lượng và tỷ lệ độ trễ. Sự chênh lệch sức mạnh giữa hai hệ thống máy chủ Nvidia GB300 NVL72 và GB200 NVL72 được thể hiện qua các thông số kỹ thuật cụ thể. Thông lượng tối đa của thế hệ mới đạt mức 226,2 mã thông báo mỗi giây trên một vi xử lý đồ họa (TPS/GPU), tương đương mức tăng 1,53 lần.

A bar chart titled 'GB300 vs GB200: Max TPS/GPU' shows GB300 outperforming GB200 with 226.2 TPS/User when MTP is off and

Tốc độ phản hồi tới người dùng cuối cũng ghi nhận sự nâng cấp mạnh mẽ với mức tăng 1,87 lần thông qua công nghệ dự đoán đa mã thông báo. Đồng thời, hệ thống đạt tỷ lệ chiến thắng về độ trễ là 1,58 lần. Theo phân tích từ LMSYS, máy chủ GB300 trung bình duy trì khoảng cách dẫn trước từ 1,4 đến 1,5 lần so với thiết bị tiền nhiệm GB200, đặc biệt phát huy tác dụng trong các kịch bản vận hành nhạy cảm với độ trễ. Dựa trên định hướng khai thác các khối lượng công việc AI tác vụ, kiến trúc Blackwell Ultra hiện là nền tảng phần cứng chiếm ưu thế cao nhất để gia tăng hiệu suất.

Dù các thiết bị Blackwell Ultra đang chứng tỏ sự thống trị tuyệt đối về thông số độ trễ và thông lượng xử lý, giới chuyên gia trong ngành công nghiệp máy chủ vẫn chưa đưa ra các thảo luận chi tiết về số liệu tổng chi phí sở hữu (TCO). Điều này xuất phát từ thực tế là chi phí triển khai cho hệ thống GB300 đã gia tăng tỷ lệ thuận với sức mạnh tính toán. Cách tiếp cận của Nvidia qua từng thế hệ sản phẩm cho thấy hãng tập trung song song vào việc nâng cấp cấu trúc phần cứng và nỗ lực giải quyết các điểm nghẽn đặc thù của ngành công nghiệp.

Đối với dòng sản phẩm Blackwell Ultra, các chỉ số đo lường độ trễ đã ghi nhận sự cải thiện đáng kể. Đây là nguyên nhân cốt lõi khiến GB300 đang nổi lên như một sự lựa chọn ưu tiên hàng đầu dành cho các nhà cung cấp dịch vụ đám mây quy mô siêu lớn cũng như các nền tảng điện toán đám mây thế hệ mới khi vận hành AI tác vụ.

Nguồn: wccftech

tin mới nhất

ASRock ra mắt dòng máy tính mini NUC Ultra 300 Box với vi xử lý Panther Lake

Dòng máy tính nhỏ gọn NUC Ultra 300 Box của ASRock vừa chính thức...

Hiệu năng game Snapdragon X2 Elite tăng mạnh nhưng vẫn kém Apple M5 tới 69%

Snapdragon X2 Elite ghi nhận bước nhảy vọt về hiệu năng chơi game so...

Colorful ra mắt laptop gaming EVOL P15 trang bị card đồ họa RTX 5050 và RTX 5060

Colorful vừa giới thiệu dòng laptop gaming giá rẻ EVOL P15, đánh dấu lần...

Samsung kỳ vọng nhu cầu chip nhớ bùng nổ, hé lộ công nghệ HBM mới

Lãnh đạo Samsung dự báo nhu cầu bộ nhớ từ các công ty AI...

Samsung Display ra mắt công nghệ QD-OLED Penta-Tandem với cấu trúc phát quang 5 lớp

Samsung Display giới thiệu thương hiệu QD-OLED Penta-Tandem, ứng dụng cấu trúc 5 lớp...

tin liên quan