NVIDIA vừa đẩy nhanh quá trình biến đổi các mô tả văn bản thành hình dạng 3D chất lượng cao với mô hình AI tạo sinh mới có tên là LATTE3D
Mô hình LATTE3D, giống như một máy in 3D ảo, chuyển đổi các lời nhắn văn bản thành biểu diễn 3D của đối tượng và động vật chỉ trong vòng một giây.
Các hình dạng được tạo ra có thể dễ dàng được sử dụng trong môi trường ảo để phát triển trò chơi video, chiến dịch quảng cáo, dự án thiết kế, hoặc làm bãi đào tạo ảo cho robot.
Sanja Fidler, phó chủ tịch nghiên cứu AI tại NVIDIA, cho biết: “Một năm trước, mô hình AI mất một giờ để tạo ra các hình ảnh 3D có chất lượng này — và hiện tại, trạng thái của nghệ thuật giờ đây là khoảng 10 đến 12 giây. Chúng tôi giờ đây có thể tạo ra kết quả nhanh hơn gấp mười lần, đưa việc tạo hình 3D từ văn bản đến gần thực tế hơn cho các nhà sáng tạo từ nhiều ngành nghề.”
LATTE3D có thể tạo ra hình dạng 3D gần như tức thì khi chạy suy luận trên một GPU đơn, như NVIDIA RTX A6000.
Thay vì bắt đầu thiết kế từ đầu hoặc tìm kiếm trong thư viện thông tin 3D, người sáng tạo có thể sử dụng LATTE3D để tạo ra các đối tượng chi tiết càng nhanh càng tốt.
Mô hình này tạo ra một số lựa chọn hình dạng 3D dựa trên mỗi lời nhắn văn bản, cung cấp cho người sáng tạo nhiều lựa chọn. Các đối tượng được chọn có thể được tối ưu hóa để có chất lượng cao hơn trong vài phút. Sau đó, người dùng có thể xuất hình dạng vào các ứng dụng phần mềm đồ họa hoặc nền tảng như NVIDIA Omniverse.
NVIDIA đã huấn luyện LATTE3D sử dụng GPU NVIDIA A100 Tensor Core. Ngoài hình dạng 3D, mô hình cũng được huấn luyện trên các lời nhắn văn bản đa dạng được tạo ra bằng ChatGPT để cải thiện khả năng xử lý các cụm từ mà người dùng có thể nghĩ ra để mô tả một đối tượng 3D cụ thể.
NVIDIA Research bao gồm hàng trăm nhà khoa học và kỹ sư trên toàn thế giới, với các nhóm tập trung vào các chủ đề bao gồm AI, đồ họa máy tính, thị giác máy tính, xe tự lái và robot.