Các nền tảng dữ liệu AI mới của NVIDIA sẽ tích hợp GPU để giải quyết thách thức về dữ liệu phi cấu trúc, giúp doanh nghiệp triển khai các tác nhân AI hiệu quả và bảo mật.
Theo số liệu từ Gartner, chỉ khoảng 40% các nguyên mẫu AI được đưa vào sản xuất thực tế, trong đó rào cản lớn nhất được ghi nhận là tính khả dụng và chất lượng dữ liệu. Tương tự như nhân sự, các tác nhân AI (AI agents) cần nguồn dữ liệu an toàn, chính xác và cập nhật để mang lại giá trị kinh doanh, khái niệm này được ngành công nghiệp gọi là “dữ liệu sẵn sàng cho AI” (AI-ready data).

Tuy nhiên, việc chuẩn hóa dữ liệu doanh nghiệp gặp nhiều khó khăn khi 70% đến 90% dữ liệu tổ chức tồn tại dưới dạng phi cấu trúc như tài liệu văn bản, email, video và tệp âm thanh. Loại dữ liệu này đặt ra thách thức lớn về quản trị do khối lượng khổng lồ, sự đa dạng định dạng và thiếu cấu trúc nhất quán. Để giải quyết vấn đề này, một lớp cơ sở hạ tầng lưu trữ và dữ liệu mới được tăng tốc bởi GPU, hay còn gọi là nền tảng dữ liệu AI, đã xuất hiện nhằm chuyển đổi nhanh chóng dữ liệu phi cấu trúc thành dữ liệu sẵn sàng cho AI.
Quy trình xử lý và bảo mật dữ liệu
Dữ liệu sẵn sàng cho AI là loại dữ liệu có thể được sử dụng ngay lập tức bởi các quy trình huấn luyện, tinh chỉnh và tạo sinh tăng cường truy xuất (RAG) mà không cần thêm bước chuẩn bị. Quá trình này bao gồm thu thập từ nhiều nguồn, áp dụng siêu dữ liệu (metadata), chia nhỏ tài liệu nguồn thành các đoạn ngữ nghĩa liên quan và nhúng chúng vào các vector để lưu trữ và tìm kiếm hiệu quả.
Các nền tảng dữ liệu AI thực hiện việc này bằng cách nhúng khả năng tăng tốc GPU trực tiếp vào đường dẫn dữ liệu, biến đổi dữ liệu cho các đường ống AI dưới dạng tác vụ nền. Phương pháp này xử lý dữ liệu tại chỗ, giảm thiểu việc sao chép không cần thiết và các rủi ro bảo mật đi kèm. Bất kỳ thay đổi nào đối với tài liệu gốc, bao gồm chỉnh sửa nội dung hoặc thay đổi quyền truy cập, đều được truyền ngay lập tức đến các bản nhúng vector liên quan, đảm bảo tính chính xác và tuân thủ quy định.
Kiến trúc tham chiếu từ NVIDIA và đối tác
NVIDIA đã giới thiệu thiết kế tham chiếu cho nền tảng dữ liệu AI, kết hợp GPU NVIDIA RTX PRO 6000 Blackwell Server Edition, DPU NVIDIA BlueField-3 và các quy trình xử lý dữ liệu tích hợp dựa trên NVIDIA Blueprints. Kiến trúc này giúp cải thiện thời gian tạo ra giá trị bằng cách cung cấp các đường ống dữ liệu AI tích hợp sẵn, giảm độ tr lệch dữ liệu (data drift) và đơn giản hóa quản trị.
Hiệu suất sử dụng GPU cũng được tối ưu hóa khi dung lượng tính toán được quy hoạch phù hợp với khối lượng và tốc độ thay đổi của dữ liệu. Hiện tại, thiết kế nền tảng dữ liệu AI của NVIDIA đã được các nhà cung cấp hạ tầng và lưu trữ hàng đầu áp dụng, bao gồm Cisco, Dell Technologies, HPE, IBM, NetApp, Pure Storage và VAST Data. Sự hợp tác này đánh dấu bước chuyển mình của hệ thống lưu trữ doanh nghiệp từ các kho chứa thụ động sang các động cơ chủ động, thúc đẩy kỷ nguyên AI tạo sinh.



