HomeAI Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU...

[GTC 2024] Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU của NVIDIA

Published on

Các mô hình ngôn ngữ mở mới từ Google được tăng tốc bởi TensorRT-LLM trên các nền tảng AI của NVIDIA — bao gồm cả máy tính AI RTX địa phương.

NVIDIA, phối hợp với Google, hôm nay đã triển khai các bản tối ưu hóa trên tất cả các nền tảng AI của NVIDIA cho Gemma — mô hình ngôn ngữ mở mới tiên tiến của Google với kích cỡ nhẹ 2 tỷ và 7 tỷ tham số, có thể chạy mọi nơi, giảm chi phí và tăng tốc độ công việc sáng tạo cho các trường hợp sử dụng cụ thể trong lĩnh vực.

llm summerization MMOSITE - Thông tin công nghệ

Các đội ngũ từ hai công ty đã làm việc chặt chẽ với nhau để tăng tốc độ hiệu suất của Gemma — được xây dựng từ cùng một nghiên cứu và công nghệ đã tạo ra các mô hình Gemini — với NVIDIA TensorRT-LLM, một thư viện mã nguồn mở để tối ưu hóa suy luận mô hình ngôn ngữ lớn, khi chạy trên GPU NVIDIA ở trung tâm dữ liệu, trong đám mây, và tại chỗ trên các trạm làm việc với GPU NVIDIA RTX hoặc máy tính cá nhân với GPU GeForce RTX.

Điều này cho phép các nhà phát triển hướng đến cơ sở đã cài đặt hơn 100 triệu GPU NVIDIA RTX có sẵn trên máy tính AI hiệu suất cao toàn cầu.

Các nhà phát triển cũng có thể chạy Gemma trên GPU NVIDIA trong đám mây, bao gồm trên các thực thể A3 của Google Cloud dựa trên GPU H100 Tensor Core và sớm, GPU H200 Tensor Core của NVIDIA — có 141GB bộ nhớ HBM3e với tốc độ 4.8 terabytes mỗi giây — mà Google sẽ triển khai trong năm nay.

Các nhà phát triển doanh nghiệp có thể tận dụng thêm hệ sinh thái phong phú của công cụ từ NVIDIA — bao gồm NVIDIA AI Enterprise với khung NeMo và TensorRT-LLM — để tinh chỉnh Gemma và triển khai mô hình được tối ưu hóa trong các ứng dụng sản xuất của họ.

Tìm hiểu thêm về cách TensorRT-LLM tăng tốc suy luận cho Gemma, cùng với thông tin bổ sung cho các nhà phát triển. Điều này bao gồm một số checkpoint mô hình của Gemma và phiên bản mô hình được lượng tử hóa FP8, tất cả đều được tối ưu hóa với TensorRT-LLM.

Trải nghiệm trực tiếp Gemma 2B và Gemma 7B từ trình duyệt của bạn trên NVIDIA AI Playground.

Gemma Sẽ Sớm Có Mặt Trên ChatRTX

Thêm hỗ trợ cho Gemma sớm là Chat with RTX (nay là ChatRTX), một bản demo công nghệ của NVIDIA sử dụng tạo sinh kết hợp tìm kiếm và phần mềm TensorRT-LLM để cung cấp khả năng AI tạo sinh cho người dùng trên máy tính Windows được trang bị RTX tại địa phương.

Screenshot 2024 03 25 at 10.43.31 MMOSITE - Thông tin công nghệ

Chat với RTX cho phép người dùng cá nhân hóa một chatbot với dữ liệu của riêng họ bằng cách kết nối dễ dàng các tệp cục bộ trên máy tính RTX với một mô hình ngôn ngữ lớn.

Vì mô hình chạy cục bộ, nó cung cấp kết quả nhanh chóng, và dữ liệu người dùng ở lại trên thiết bị. Thay vì phụ thuộc vào các dịch vụ LLM dựa trên đám mây, Chat với RTX cho phép người dùng xử lý dữ liệu nhạy cảm trên máy tính cá nhân mà không cần chia sẻ với bên thứ ba hoặc có kết nối internet.

tin mới nhất

Xiaomi chính thức mở bán Xiaomi TV S Mini LED 2026 Series

Xiaomi chính thức mở bán Xiaomi TV S Mini LED 2026 Series và Xiaomi...

ASUS Republic of Gamers ra mắt loạt màn hình Strix OLED mới

Các mẫu màn hình gaming ASUS Strix OLED QHD 27 inch mang tấm nền...

Modem Apple C1X vượt trội Qualcomm X80 về độ trễ, bám sát tốc độ tải xuống

Dữ liệu từ Ookla cho thấy modem Apple C1X đang bám đuổi Qualcomm X80...

Điểm hiệu năng Intel Core Ultra 7 270K Plus và 5 250K Plus vượt trội đối thủ

Intel công bố điểm chuẩn Core Ultra 7 270K Plus và 5 250K Plus,...

CORSAIR ra mắt bàn phím chơi game Low-Profile VANGUARD AIR 99 WIRELESS tích hợp tính năng Elgato Stream Deck

CORSAIR (Nasdaq: CRSR), nhà sản xuất thiết bị chơi game danh tiếng hàng đầu...

tin liên quan

NVIDIA giới thiệu DGX Spark cho workload AI agent và mô hình 700B tham số

NVIDIA công bố DGX Spark, nền tảng máy trạm...

NVIDIA công bố DLSS 5 với công nghệ dựng hình thần kinh thế hệ mới

DLSS 5 nâng cấp chất lượng đồ họa bằng...

NVIDIA công bố GPU Feynman với công nghệ xếp chồng 3D và HBM tùy biến

NVIDIA tiết lộ thêm chi tiết về nền tảng...

Nvidia ra mắt mô hình Nemotron 3 Super mã nguồn mở tối ưu cho OpenClaw

Nvidia giới thiệu mô hình Nemotron 3 Super mã...

Google tích hợp công cụ tạo ảnh Nano Banana vào ứng dụng Maps

Mã nguồn mới cho thấy Google đang thử nghiệm...