HomeAI Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU...

[GTC 2024] Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU của NVIDIA

Published on

Các mô hình ngôn ngữ mở mới từ Google được tăng tốc bởi TensorRT-LLM trên các nền tảng AI của NVIDIA — bao gồm cả máy tính AI RTX địa phương.

NVIDIA, phối hợp với Google, hôm nay đã triển khai các bản tối ưu hóa trên tất cả các nền tảng AI của NVIDIA cho Gemma — mô hình ngôn ngữ mở mới tiên tiến của Google với kích cỡ nhẹ 2 tỷ và 7 tỷ tham số, có thể chạy mọi nơi, giảm chi phí và tăng tốc độ công việc sáng tạo cho các trường hợp sử dụng cụ thể trong lĩnh vực.

llm summerization MMOSITE - Thông tin công nghệ, review, thủ thuật PC, gaming

Các đội ngũ từ hai công ty đã làm việc chặt chẽ với nhau để tăng tốc độ hiệu suất của Gemma — được xây dựng từ cùng một nghiên cứu và công nghệ đã tạo ra các mô hình Gemini — với NVIDIA TensorRT-LLM, một thư viện mã nguồn mở để tối ưu hóa suy luận mô hình ngôn ngữ lớn, khi chạy trên GPU NVIDIA ở trung tâm dữ liệu, trong đám mây, và tại chỗ trên các trạm làm việc với GPU NVIDIA RTX hoặc máy tính cá nhân với GPU GeForce RTX.

Điều này cho phép các nhà phát triển hướng đến cơ sở đã cài đặt hơn 100 triệu GPU NVIDIA RTX có sẵn trên máy tính AI hiệu suất cao toàn cầu.

Các nhà phát triển cũng có thể chạy Gemma trên GPU NVIDIA trong đám mây, bao gồm trên các thực thể A3 của Google Cloud dựa trên GPU H100 Tensor Core và sớm, GPU H200 Tensor Core của NVIDIA — có 141GB bộ nhớ HBM3e với tốc độ 4.8 terabytes mỗi giây — mà Google sẽ triển khai trong năm nay.

Các nhà phát triển doanh nghiệp có thể tận dụng thêm hệ sinh thái phong phú của công cụ từ NVIDIA — bao gồm NVIDIA AI Enterprise với khung NeMo và TensorRT-LLM — để tinh chỉnh Gemma và triển khai mô hình được tối ưu hóa trong các ứng dụng sản xuất của họ.

Tìm hiểu thêm về cách TensorRT-LLM tăng tốc suy luận cho Gemma, cùng với thông tin bổ sung cho các nhà phát triển. Điều này bao gồm một số checkpoint mô hình của Gemma và phiên bản mô hình được lượng tử hóa FP8, tất cả đều được tối ưu hóa với TensorRT-LLM.

Trải nghiệm trực tiếp Gemma 2B và Gemma 7B từ trình duyệt của bạn trên NVIDIA AI Playground.

Gemma Sẽ Sớm Có Mặt Trên ChatRTX

Thêm hỗ trợ cho Gemma sớm là Chat with RTX (nay là ChatRTX), một bản demo công nghệ của NVIDIA sử dụng tạo sinh kết hợp tìm kiếm và phần mềm TensorRT-LLM để cung cấp khả năng AI tạo sinh cho người dùng trên máy tính Windows được trang bị RTX tại địa phương.

Screenshot 2024 03 25 at 10.43.31 MMOSITE - Thông tin công nghệ, review, thủ thuật PC, gaming

Chat với RTX cho phép người dùng cá nhân hóa một chatbot với dữ liệu của riêng họ bằng cách kết nối dễ dàng các tệp cục bộ trên máy tính RTX với một mô hình ngôn ngữ lớn.

Vì mô hình chạy cục bộ, nó cung cấp kết quả nhanh chóng, và dữ liệu người dùng ở lại trên thiết bị. Thay vì phụ thuộc vào các dịch vụ LLM dựa trên đám mây, Chat với RTX cho phép người dùng xử lý dữ liệu nhạy cảm trên máy tính cá nhân mà không cần chia sẻ với bên thứ ba hoặc có kết nối internet.

tin mới nhất

MSI ra mắt màn hình chơi game MPG 322URX QD-OLED, 4K & DisplayPort 2.1a UHBR20, hỗ trợ RTX 50

Màn hình MSI MPG 322URX QD-OLED mở khóa băng thông 80 Gbps thông qua...

NVIDIA đưa ra giải pháp tạm thời giúp khắc phục tình trạng giảm hiệu năng trên NVIDIA App

Bản cập nhật mới của Nvidia App, phát hành cùng driver phiên bản 566.14...

TSMC tiết lộ chi tiết về “Tiến trình 2nm” cao cấp

TSMC vừa tiết lộ thêm thông tin chi tiết về công nghệ "2nm N2",...

Samsung sẽ ra mắt phiên bản Bixby mới cùng với Galaxy S25

Việc tích hợp Galaxy AI được một số công ty nghiên cứu báo cáo...

Lenovo Legion Go 2: APU Ryzen Z2 Extreme, màn hình OLED và nhiều hơn thế nữa

Máy chơi game cầm tay Lenovo Legion Go 2 sẽ có những cải tiến...

tin liên quan