Báo cáo kỹ thuật mới nhất của ACE (AI Compute Extensions – Tập lệnh mở rộng tính toán AI) do AMD và Intel đồng phát triển vừa chính thức được công bố. Động thái này đánh dấu bước tiến lớn trong việc đưa các engine nhân ma trận và định dạng dữ liệu độ chính xác thấp trực tiếp vào CPU x86 để thu hẹp khoảng cách về hiệu năng AI.
Năm ngoái, Intel và AMD đã bắt tay thành lập “Nhóm Cố vấn Hệ sinh thái x86” (EAG) nhằm chuẩn hóa, mở rộng và tăng cường khả năng tương thích của kiến trúc này trước các yêu cầu tương lai. Bốn trụ cột công nghệ chính đã được công bố bao gồm: FRED, AVX10, ChkTag và ACE. Giờ đây, chi tiết về ACE đã chính thức được hé lộ.
ACE giải quyết bài toán cốt lõi của AI: Nhân ma trận
Phép nhân ma trận (Matrix Multiplication) là khối cơ sở cấu trúc nên các mạng nơ-ron và Mô hình ngôn ngữ lớn (LLM). Hiện tại, các tập lệnh SIMD (như AVX10) có thể xử lý tác vụ này nhưng lại gặp hạn chế về khả năng mở rộng và mật độ tính toán. Các kỹ thuật tăng tốc nhân ma trận truyền thống cũng chưa đạt được hiệu suất tối ưu.

Để giải quyết triệt để điểm nghẽn này, nhóm EAG đã giới thiệu ACE với mục tiêu tối đa hóa hiệu năng, tính linh hoạt, khả năng mở rộng và tiết kiệm năng lượng.
Những nâng cấp kỹ thuật nổi bật của tập lệnh ACE:
Tập lệnh ACE định nghĩa các nguyên hàm (primitives) nhân ma trận mới, giúp tăng cường khả năng của các mã vô hướng (scalar code) và AVX thông qua:
-
Trạng thái thanh ghi ACE (ACE Register State): Bổ sung các thanh ghi tỷ lệ khối (block scale) và thanh ghi phân mảng (tile).
-
Xử lý dữ liệu tối ưu: Các lệnh xử lý sẽ sử dụng dữ liệu đầu vào từ thanh ghi AVX và vận hành trực tiếp trên trạng thái thanh ghi tile.
-
Luân chuyển dữ liệu linh hoạt: Cung cấp các thao tác di chuyển dữ liệu mượt mà giữa trạng thái thanh ghi ACE và thanh ghi AVX.
-
Quản lý hệ thống: Tích hợp các trạng thái và thao tác chuyên biệt cho việc quản lý hệ thống.
Sức mạnh thực sự của ACE nằm ở sự tích hợp chặt chẽ giữa vector AVX và thanh ghi tile ACE. Sự kết hợp này mang lại mật độ tính toán cực cao từ khâu xử lý tile, đồng thời tận dụng được khả năng xử lý dữ liệu toàn diện của kiến trúc AVX.

Hỗ trợ đa dạng định dạng dữ liệu cho Machine Learning
Bên cạnh việc tăng tốc tính toán ma trận, khuôn khổ AVX10 còn được bổ sung hàng loạt thao tác chuyển đổi định dạng chuyên dụng. Bản đặc tả mới nhất tập trung mạnh vào các lõi nhân ma trận và định dạng dữ liệu độ chính xác thấp (reduced precision) – yếu tố sống còn đối với khối lượng công việc Machine Learning.
-
Hỗ trợ định dạng bản địa (native format) cho các thao tác nhân ma trận.
-
Hỗ trợ điều chỉnh tỷ lệ (scaling) cho các tác vụ theo chuẩn OCP MX.
-
Hỗ trợ định dạng tích lũy (accumulation format) và khả năng chuyển đổi linh hoạt giữa nhiều định dạng khác nhau. Trong tương lai, danh sách này sẽ tiếp tục được mở rộng.
ACE mới chỉ là một trong những bước tiến chiến lược của kiến trúc x86. Cùng với APX (Advanced Performance Extensions), những cải tiến đột phá này sẽ đóng vai trò bản lề trong việc định hình sức mạnh của các thế hệ vi xử lý x86 ra mắt trong thời gian tới.
Nguồn: wccftech


