HomeAI Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU...

[GTC 2024] Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU của NVIDIA

Published on

Các mô hình ngôn ngữ mở mới từ Google được tăng tốc bởi TensorRT-LLM trên các nền tảng AI của NVIDIA — bao gồm cả máy tính AI RTX địa phương.

NVIDIA, phối hợp với Google, hôm nay đã triển khai các bản tối ưu hóa trên tất cả các nền tảng AI của NVIDIA cho Gemma — mô hình ngôn ngữ mở mới tiên tiến của Google với kích cỡ nhẹ 2 tỷ và 7 tỷ tham số, có thể chạy mọi nơi, giảm chi phí và tăng tốc độ công việc sáng tạo cho các trường hợp sử dụng cụ thể trong lĩnh vực.

llm summerization MMOSITE - Thông tin công nghệ, review, thủ thuật PC, gaming

Các đội ngũ từ hai công ty đã làm việc chặt chẽ với nhau để tăng tốc độ hiệu suất của Gemma — được xây dựng từ cùng một nghiên cứu và công nghệ đã tạo ra các mô hình Gemini — với NVIDIA TensorRT-LLM, một thư viện mã nguồn mở để tối ưu hóa suy luận mô hình ngôn ngữ lớn, khi chạy trên GPU NVIDIA ở trung tâm dữ liệu, trong đám mây, và tại chỗ trên các trạm làm việc với GPU NVIDIA RTX hoặc máy tính cá nhân với GPU GeForce RTX.

Điều này cho phép các nhà phát triển hướng đến cơ sở đã cài đặt hơn 100 triệu GPU NVIDIA RTX có sẵn trên máy tính AI hiệu suất cao toàn cầu.

Các nhà phát triển cũng có thể chạy Gemma trên GPU NVIDIA trong đám mây, bao gồm trên các thực thể A3 của Google Cloud dựa trên GPU H100 Tensor Core và sớm, GPU H200 Tensor Core của NVIDIA — có 141GB bộ nhớ HBM3e với tốc độ 4.8 terabytes mỗi giây — mà Google sẽ triển khai trong năm nay.

Các nhà phát triển doanh nghiệp có thể tận dụng thêm hệ sinh thái phong phú của công cụ từ NVIDIA — bao gồm NVIDIA AI Enterprise với khung NeMo và TensorRT-LLM — để tinh chỉnh Gemma và triển khai mô hình được tối ưu hóa trong các ứng dụng sản xuất của họ.

Tìm hiểu thêm về cách TensorRT-LLM tăng tốc suy luận cho Gemma, cùng với thông tin bổ sung cho các nhà phát triển. Điều này bao gồm một số checkpoint mô hình của Gemma và phiên bản mô hình được lượng tử hóa FP8, tất cả đều được tối ưu hóa với TensorRT-LLM.

Trải nghiệm trực tiếp Gemma 2B và Gemma 7B từ trình duyệt của bạn trên NVIDIA AI Playground.

Gemma Sẽ Sớm Có Mặt Trên ChatRTX

Thêm hỗ trợ cho Gemma sớm là Chat with RTX (nay là ChatRTX), một bản demo công nghệ của NVIDIA sử dụng tạo sinh kết hợp tìm kiếm và phần mềm TensorRT-LLM để cung cấp khả năng AI tạo sinh cho người dùng trên máy tính Windows được trang bị RTX tại địa phương.

Screenshot 2024 03 25 at 10.43.31 MMOSITE - Thông tin công nghệ, review, thủ thuật PC, gaming

Chat với RTX cho phép người dùng cá nhân hóa một chatbot với dữ liệu của riêng họ bằng cách kết nối dễ dàng các tệp cục bộ trên máy tính RTX với một mô hình ngôn ngữ lớn.

Vì mô hình chạy cục bộ, nó cung cấp kết quả nhanh chóng, và dữ liệu người dùng ở lại trên thiết bị. Thay vì phụ thuộc vào các dịch vụ LLM dựa trên đám mây, Chat với RTX cho phép người dùng xử lý dữ liệu nhạy cảm trên máy tính cá nhân mà không cần chia sẻ với bên thứ ba hoặc có kết nối internet.

tin mới nhất

Schneider Electric và NVIDIA hợp tác tiên phong trong công nghệ AI và bản sao số hóa

Schneider Electric công bố hợp tác với NVIDIA nhằm tối ưu hóa cơ sở hạ...

Viber áp dụng AI vào nhắn tin với sự ra mắt của Pi

Rakuten Viber tin rằng “trò chuyện là cách kết nối mới”. Vì vậy, họ...

Apple sẽ áp dụng Baidu AI tại Trung Quốc

Mặc dù Apple đang có kế hoạch hợp tác với Google để mang Gemini...

NVIDIA ra mắt Project GR00T và cập nhật nền tảng Isaac: Bước tiến mới trong ngành công nghiệp Robot hình dạng con người

NVIDIA đã công bố một bước tiến lớn trong lĩnh vực robot hình người...

[GTC 2024] Góc nhìn của Jensen Huang về AI trong tương lai từ phiên phỏng vấn đặc biệt

Trong một phiên thảo luận ở GTC 2024 dành riêng cho giới truyền thông,...

tin liên quan