HomeCông NghệGPU NVIDIA Feynman sẽ tích hợp LPU Groq theo cấu trúc xếp...

GPU NVIDIA Feynman sẽ tích hợp LPU Groq theo cấu trúc xếp chồng tương tự AMD X3D

Published on

NVIDIA dự kiến tích hợp các đơn vị LPU vào kiến trúc GPU Feynman thế hệ mới thông qua công nghệ xếp chồng chip, nhằm thống trị mảng suy luận AI.

Thỏa thuận cấp phép sở hữu trí tuệ giữa NVIDIA và Groq liên quan đến các đơn vị xử lý ngôn ngữ (LPU) đang mở ra hướng đi chiến lược mới cho “Đội Xanh” trong cuộc đua phần cứng AI. Mặc dù các con số doanh thu ban đầu có thể chưa phản ánh hết quy mô, mục tiêu thực sự của NVIDIA là dẫn đầu phân khúc suy luận (inference) thông qua việc ứng dụng LPU vào các dòng sản phẩm tương lai.

Theo phân tích từ chuyên gia GPU AGF, kiến trúc GPU thế hệ tiếp theo mang tên Feynman, dự kiến ra mắt khoảng năm 2028, có thể sẽ tích hợp các đơn vị LPU trực tiếp lên chip thông qua công nghệ liên kết lai (hybrid bonding) của TSMC. Phương pháp này có nhiều điểm tương đồng với kỹ thuật mà AMD đã triển khai thành công trên các dòng CPU X3D.

Ứng dụng công nghệ xếp chồng chip lai

Các chuyên gia nhận định rằng việc triển khai LPU trên GPU Feynman sẽ tận dụng công nghệ đóng gói SoIC của TSMC để xếp chồng các lớp bộ nhớ lên khuôn xử lý chính. Giải pháp này giải quyết bài toán nan giải về giới hạn vật lý của bộ nhớ SRAM. Việc tích hợp SRAM dưới dạng một khuôn đơn khối (monolithic) trên các tiến trình sản xuất tiên tiến (như A16 hay 1.6nm) được xem là không hiệu quả về mặt kinh tế, do khả năng thu nhỏ kích thước của SRAM rất hạn chế.

Việc cố gắng sản xuất SRAM trên các nút quy trình cao cấp sẽ dẫn đến lãng phí diện tích silicon đắt đỏ và làm tăng chi phí sản xuất trên mỗi tấm wafer. Thay vào đó, NVIDIA sẽ sử dụng tiến trình A16 cho khuôn tính toán chính (chứa các đơn vị tensor và logic điều khiển), trong khi các đơn vị LPU chứa các khối SRAM lớn sẽ nằm trên các khuôn riêng biệt được xếp chồng lên.

A diagram on wccftech.com shows the structure of a chip labeled 'A16 (1.6nm) Feynman Die (Compute, Control Logic)' with components including 'Through-Silicon (TSVs)', 'Vertical SRAM Connections (Low-Latency)', 'LPU Dies (SRAM Banks)', 'Hybrid Bonding Interface

Công nghệ liên kết lai của TSMC đóng vai trò then chốt trong thiết kế này, cho phép tạo ra giao diện kết nối rộng với mức tiêu thụ năng lượng thấp hơn nhiều so với bộ nhớ ngoài. Đặc biệt, do tiến trình A16 hỗ trợ công nghệ cấp điện mặt sau (backside power delivery), mặt trước của chip sẽ được giải phóng để dành riêng cho các kết nối SRAM theo chiều dọc, đảm bảo độ trễ giải mã cực thấp.

Thách thức về nhiệt độ và tương thích phần mềm

Mặc dù hứa hẹn hiệu năng vượt trội, kỹ thuật này đặt ra những thách thức lớn về quản lý nhiệt độ. Việc xếp chồng các khuôn chip hoạt động ở mật độ tính toán cao sẽ tạo ra lượng nhiệt lớn, và đặc tính thông lượng duy trì liên tục của LPU có thể gây ra các điểm nghẽn hệ thống.

A Groq accelerator card displaying a Groq chip labeled 'U123D4-GRQ2001.'

Bên cạnh đó, sự khác biệt trong cơ chế thực thi giữa GPU truyền thống và LPU cũng là một rào cản kỹ thuật. LPU tập trung vào thứ tự thực thi cố định (tính xác định), trong khi GPU thường ưu tiên tính linh hoạt. Điều này tạo ra xung đột tiềm tàng giữa tính tất định và khả năng tùy biến. Vấn đề càng trở nên phức tạp hơn ở khía cạnh phần mềm, đặc biệt là với nền tảng CUDA. Trong khi CUDA được thiết kế dựa trên sự trừu tượng hóa phần cứng, mô hình thực thi kiểu LPU lại yêu cầu việc sắp xếp bộ nhớ một cách tường minh.

Việc dung hòa hai cơ chế này đòi hỏi NVIDIA phải thực hiện những tối ưu hóa kỹ thuật sâu rộng để đảm bảo môi trường LPU-GPU hoạt động trơn tru. Tuy nhiên, đây được xem là cái giá cần thiết để NVIDIA hiện thực hóa tham vọng thống trị thị trường suy luận AI trong thập kỷ tới.

Nguồn: wccftech

tin mới nhất

Hiệu năng game Snapdragon X2 Elite tăng mạnh nhưng vẫn kém Apple M5 tới 69%

Snapdragon X2 Elite ghi nhận bước nhảy vọt về hiệu năng chơi game so...

Colorful ra mắt laptop gaming EVOL P15 trang bị card đồ họa RTX 5050 và RTX 5060

Colorful vừa giới thiệu dòng laptop gaming giá rẻ EVOL P15, đánh dấu lần...

Samsung kỳ vọng nhu cầu chip nhớ bùng nổ, hé lộ công nghệ HBM mới

Lãnh đạo Samsung dự báo nhu cầu bộ nhớ từ các công ty AI...

Samsung Display ra mắt công nghệ QD-OLED Penta-Tandem với cấu trúc phát quang 5 lớp

Samsung Display giới thiệu thương hiệu QD-OLED Penta-Tandem, ứng dụng cấu trúc 5 lớp...

AOC ra mắt bộ đôi màn hình gaming 24G4ZR và 27G4ZR tần số quét 260Hz giá rẻ

AOC vừa mở rộng dải sản phẩm màn hình gaming phổ thông với hai...

tin liên quan