HomeAI Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU...

[GTC 2024] Gemma của Google Được Tối Ưu Hóa để Chạy trên GPU của NVIDIA

Published on

Các mô hình ngôn ngữ mở mới từ Google được tăng tốc bởi TensorRT-LLM trên các nền tảng AI của NVIDIA — bao gồm cả máy tính AI RTX địa phương.

NVIDIA, phối hợp với Google, hôm nay đã triển khai các bản tối ưu hóa trên tất cả các nền tảng AI của NVIDIA cho Gemma — mô hình ngôn ngữ mở mới tiên tiến của Google với kích cỡ nhẹ 2 tỷ và 7 tỷ tham số, có thể chạy mọi nơi, giảm chi phí và tăng tốc độ công việc sáng tạo cho các trường hợp sử dụng cụ thể trong lĩnh vực.

llm summerization MMOSITE - Thông tin công nghệ

Các đội ngũ từ hai công ty đã làm việc chặt chẽ với nhau để tăng tốc độ hiệu suất của Gemma — được xây dựng từ cùng một nghiên cứu và công nghệ đã tạo ra các mô hình Gemini — với NVIDIA TensorRT-LLM, một thư viện mã nguồn mở để tối ưu hóa suy luận mô hình ngôn ngữ lớn, khi chạy trên GPU NVIDIA ở trung tâm dữ liệu, trong đám mây, và tại chỗ trên các trạm làm việc với GPU NVIDIA RTX hoặc máy tính cá nhân với GPU GeForce RTX.

Điều này cho phép các nhà phát triển hướng đến cơ sở đã cài đặt hơn 100 triệu GPU NVIDIA RTX có sẵn trên máy tính AI hiệu suất cao toàn cầu.

Các nhà phát triển cũng có thể chạy Gemma trên GPU NVIDIA trong đám mây, bao gồm trên các thực thể A3 của Google Cloud dựa trên GPU H100 Tensor Core và sớm, GPU H200 Tensor Core của NVIDIA — có 141GB bộ nhớ HBM3e với tốc độ 4.8 terabytes mỗi giây — mà Google sẽ triển khai trong năm nay.

Các nhà phát triển doanh nghiệp có thể tận dụng thêm hệ sinh thái phong phú của công cụ từ NVIDIA — bao gồm NVIDIA AI Enterprise với khung NeMo và TensorRT-LLM — để tinh chỉnh Gemma và triển khai mô hình được tối ưu hóa trong các ứng dụng sản xuất của họ.

Tìm hiểu thêm về cách TensorRT-LLM tăng tốc suy luận cho Gemma, cùng với thông tin bổ sung cho các nhà phát triển. Điều này bao gồm một số checkpoint mô hình của Gemma và phiên bản mô hình được lượng tử hóa FP8, tất cả đều được tối ưu hóa với TensorRT-LLM.

Trải nghiệm trực tiếp Gemma 2B và Gemma 7B từ trình duyệt của bạn trên NVIDIA AI Playground.

Gemma Sẽ Sớm Có Mặt Trên ChatRTX

Thêm hỗ trợ cho Gemma sớm là Chat with RTX (nay là ChatRTX), một bản demo công nghệ của NVIDIA sử dụng tạo sinh kết hợp tìm kiếm và phần mềm TensorRT-LLM để cung cấp khả năng AI tạo sinh cho người dùng trên máy tính Windows được trang bị RTX tại địa phương.

Screenshot 2024 03 25 at 10.43.31 MMOSITE - Thông tin công nghệ

Chat với RTX cho phép người dùng cá nhân hóa một chatbot với dữ liệu của riêng họ bằng cách kết nối dễ dàng các tệp cục bộ trên máy tính RTX với một mô hình ngôn ngữ lớn.

Vì mô hình chạy cục bộ, nó cung cấp kết quả nhanh chóng, và dữ liệu người dùng ở lại trên thiết bị. Thay vì phụ thuộc vào các dịch vụ LLM dựa trên đám mây, Chat với RTX cho phép người dùng xử lý dữ liệu nhạy cảm trên máy tính cá nhân mà không cần chia sẻ với bên thứ ba hoặc có kết nối internet.

tin mới nhất

Cadence và NVIDIA mở rộng hợp tác, tái định nghĩa kỹ thuật trong kỷ nguyên AI

Sự hợp tác mở rộng giữa NVIDIA và Cadence hai tập đoàn kết hợp...

Intel và AMD hợp tác phát triển kiến trúc APX giúp tăng hiệu suất chip x86

Intel và AMD hợp tác phát triển kiến trúc APX, giúp tăng hiệu suất...

Công nghệ ENSS trên Samsung Exynos 2600 tăng 15% hiệu năng

Vi xử lý Samsung Exynos 2600 tích hợp công nghệ ENSS giúp tăng 15%...

ASRock ra mắt hai mẫu màn hình chơi game PG27QFW2A và PG32QFT độ phân giải QHD

ASRock vừa ra mắt hai mẫu màn hình Phantom Gaming mới, nổi bật với...

COLORFUL Ra Mắt Dòng Bo Mạch Chủ BATTLE-AX B860M và B760M Hỗ Trợ Loạt Vi Xử Lý Thế Hệ Tiếp Theo Và Wi-Fi 7

Công ty TNHH Công Nghệ COLORFUL, nhà sản xuất linh kiện máy tính để bàn,...

tin liên quan

NVIDIA chuẩn bị ra mắt GeForce RTX 5060 Ti và RTX 5060 bản 9GB VRAM

NVIDIA dự kiến giới thiệu hai phiên bản GeForce...

GOOGLE AI MODE MỞ RỘNG TÍNH NĂNG ĐẶT BÀN NHÀ HÀNG TỰ ĐỘNG

Google Search AI Mode chính thức hỗ trợ người...

Người dùng có thể kích hoạt sớm tính năng Nvidia Dynamic Multi-Frame Generation qua OTA

Tính năng Nvidia Dynamic Multi-Frame Generation có thể được...

NVIDIA giới thiệu DGX Spark cho workload AI agent và mô hình 700B tham số

NVIDIA công bố DGX Spark, nền tảng máy trạm...

NVIDIA công bố DLSS 5 với công nghệ dựng hình thần kinh thế hệ mới

DLSS 5 nâng cấp chất lượng đồ họa bằng...