HomeAI Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU...

[GTC 2024] Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU của NVIDIA

Published on

Các mô hình ngôn ngữ mở mới từ Google được tăng tốc bởi TensorRT-LLM trên các nền tảng AI của NVIDIA — bao gồm cả máy tính AI RTX địa phương.

NVIDIA, phối hợp với Google, hôm nay đã triển khai các bản tối ưu hóa trên tất cả các nền tảng AI của NVIDIA cho Gemma — mô hình ngôn ngữ mở mới tiên tiến của Google với kích cỡ nhẹ 2 tỷ và 7 tỷ tham số, có thể chạy mọi nơi, giảm chi phí và tăng tốc độ công việc sáng tạo cho các trường hợp sử dụng cụ thể trong lĩnh vực.

llm summerization MMOSITE - Thông tin công nghệ, review, thủ thuật PC, gaming

Các đội ngũ từ hai công ty đã làm việc chặt chẽ với nhau để tăng tốc độ hiệu suất của Gemma — được xây dựng từ cùng một nghiên cứu và công nghệ đã tạo ra các mô hình Gemini — với NVIDIA TensorRT-LLM, một thư viện mã nguồn mở để tối ưu hóa suy luận mô hình ngôn ngữ lớn, khi chạy trên GPU NVIDIA ở trung tâm dữ liệu, trong đám mây, và tại chỗ trên các trạm làm việc với GPU NVIDIA RTX hoặc máy tính cá nhân với GPU GeForce RTX.

Điều này cho phép các nhà phát triển hướng đến cơ sở đã cài đặt hơn 100 triệu GPU NVIDIA RTX có sẵn trên máy tính AI hiệu suất cao toàn cầu.

Các nhà phát triển cũng có thể chạy Gemma trên GPU NVIDIA trong đám mây, bao gồm trên các thực thể A3 của Google Cloud dựa trên GPU H100 Tensor Core và sớm, GPU H200 Tensor Core của NVIDIA — có 141GB bộ nhớ HBM3e với tốc độ 4.8 terabytes mỗi giây — mà Google sẽ triển khai trong năm nay.

Các nhà phát triển doanh nghiệp có thể tận dụng thêm hệ sinh thái phong phú của công cụ từ NVIDIA — bao gồm NVIDIA AI Enterprise với khung NeMo và TensorRT-LLM — để tinh chỉnh Gemma và triển khai mô hình được tối ưu hóa trong các ứng dụng sản xuất của họ.

Tìm hiểu thêm về cách TensorRT-LLM tăng tốc suy luận cho Gemma, cùng với thông tin bổ sung cho các nhà phát triển. Điều này bao gồm một số checkpoint mô hình của Gemma và phiên bản mô hình được lượng tử hóa FP8, tất cả đều được tối ưu hóa với TensorRT-LLM.

Trải nghiệm trực tiếp Gemma 2B và Gemma 7B từ trình duyệt của bạn trên NVIDIA AI Playground.

Gemma Sẽ Sớm Có Mặt Trên ChatRTX

Thêm hỗ trợ cho Gemma sớm là Chat with RTX (nay là ChatRTX), một bản demo công nghệ của NVIDIA sử dụng tạo sinh kết hợp tìm kiếm và phần mềm TensorRT-LLM để cung cấp khả năng AI tạo sinh cho người dùng trên máy tính Windows được trang bị RTX tại địa phương.

Screenshot 2024 03 25 at 10.43.31 MMOSITE - Thông tin công nghệ, review, thủ thuật PC, gaming

Chat với RTX cho phép người dùng cá nhân hóa một chatbot với dữ liệu của riêng họ bằng cách kết nối dễ dàng các tệp cục bộ trên máy tính RTX với một mô hình ngôn ngữ lớn.

Vì mô hình chạy cục bộ, nó cung cấp kết quả nhanh chóng, và dữ liệu người dùng ở lại trên thiết bị. Thay vì phụ thuộc vào các dịch vụ LLM dựa trên đám mây, Chat với RTX cho phép người dùng xử lý dữ liệu nhạy cảm trên máy tính cá nhân mà không cần chia sẻ với bên thứ ba hoặc có kết nối internet.

tin mới nhất

Huawei ráo rít săn đón các kỹ sư của TSMC nhằm làm chủ dây chuyền sản xuất chip bán dẫn

SMIC và Huawei có thể đã phát triển thành công chip có tiến trình...

Sony xác nhận thông số kỹ thuật của PS5 Pro và hơn 50 trò chơi được nâng cấp khi ra mắt

PlayStation 5 Pro sẽ ra mắt vào ngày 7 tháng 11 và Sony cuối...

Tìm màn hình phù hợp ngân sách cho văn phòng tại nhà của bạn

Cho dù bạn là chủ doanh nghiệp nhỏ, freelancer, nhân viên làm việc từ...

APU AMD Strix Point sẽ được nâng cấp để hỗ trợ bộ nhớ LPDDR5X-8000

APU AMD Strix Point sẽ được nâng cấp hiệu năng, vì đội đỏ đã...

Kingston dẫn đầu thị phần ổ cứng SSD 2023, giữ vững vị thế trong 7 năm liên tiếp

Kingston Technology, công ty hàng đầu thế giới về các sản phẩm bộ nhớ...

tin liên quan