Bài viết nổi bật

Dự án “FlashMLA” mới nhất của DeepSeek cho thấy Trung Quốc không cần các máy gia tốc “tiên tiến” để tiến triển với AI

Published on

25/02/2025

Quảng cáo

Theo báo cáo, Trung Quốc đã tìm được giải pháp thay thế cho các bộ gia tốc AI “tiên tiến” nhất của NVIDIA, dự án mới nhất của DeepSeek đã mang lại hiệu suất gấp tám lần TFLOPS trên bộ tăng tốc AI Hopper H800s.

Trung Quốc đang chứng minh rằng mình không cần phụ thuộc vào bất kỳ ai để mở rộng quy mô phần cứng, vì các công ty nội địa, đáng chú ý là DeepSeek, đang sử dụng sức mạnh của phần mềm để tìm giải pháp thay thế bằng thiết bị họ có sẵn. Những bước đột phá mới nhất của DeepSeek là điều điên rồ nhất mà ngành AI từng chứng kiến, vì theo công ty, họ đã xoay xở để khai thác hiệu suất đáng kể từ GPU Hopper H800 của NVIDIA bằng cách tối ưu hóa mức tiêu thụ bộ nhớ và phân bổ tài nguyên trên các yêu cầu suy luận.

What is DeepSeek - and why is everyone talking about it? - BBC News

DeepSeek đang tổ chức một tuần “Nguồn mở”, nơi công ty có kế hoạch tiết lộ các công nghệ và công cụ sẽ dễ dàng tiếp cận với công chúng thông qua các kho lưu trữ Github. Ngày đầu tiên của sự kiện có vẻ là một khởi đầu tuyệt vời vì công ty đã tiết lộ FlashMLA, một “hạt nhân giải mã” được thiết kế riêng cho GPU Hopper của NVIDIA.

DeepSeek tuyên bố rằng họ đã có thể đạt được 580 TFLOPS nhân ma trận BF16 trên Hopper H800, cao hơn khoảng tám lần so với sức mạnh tiêu chuẩn. Không chỉ vậy, với việc sử dụng bộ nhớ hiệu quả, FlashMLA cho phép băng thông bộ nhớ lên tới 3000 GB/giây, gần gấp đôi mức trần lý thuyết của H800. Điểm quan trọng ở đây là tất cả những điều này trở nên khả thi chỉ thông qua các dòng mã chứ không phải cải tiến phần cứng.

012725 deepseek result MMOSITE - Thông tin công nghệ

FlashMLA của DeepSeek triển khai “nén giá trị khóa cấp thấp”, theo cách nói dễ hiểu, phân tích các khối dữ liệu thành các phần nhỏ hơn, cho phép xử lý nhanh hơn, cùng với việc giảm mức tiêu thụ bộ nhớ tới 40%-60%.

Sự phát triển của DeepSeek cho thấy thế giới điện toán AI không phụ thuộc vào một yếu tố duy nhất. Hiện tại, có vẻ như công cụ này chỉ dành riêng cho GPU Hopper và sẽ rất thú vị khi công cụ này được áp dụng với H100.

Nguồn: wccftech

Tags
DeepSeek

MMOSITE - Thông tin công nghệ

Bài viết nổi bật

Dự án “FlashMLA” mới nhất của DeepSeek cho thấy Trung Quốc không cần các máy gia tốc “tiên tiến” để tiến triển với AI

Theo báo cáo, Trung Quốc đã tìm được giải pháp thay thế cho các bộ gia tốc AI “tiên tiến” nhất của NVIDIA, dự án mới nhất của DeepSeek đã mang lại hiệu suất gấp tám lần TFLOPS trên bộ tăng tốc AI Hopper H800s.

Tin mới

Huawei lên kế hoạch dùng chất nền kính cho chip AI từ năm 2027

Cadence giới thiệu AuraStack AI Super Agent, nền tảng Agentic AI đầu tiên cho PCB

ASRock âm thầm xác nhận card đồ họa Radeon RX 9050 với hai phiên bản 4GB và 8GB

COLORFUL Ra Mắt Laptop Rimbook L1 Plus

AMD Ra Mắt Hệ Sinh Thái Điện Toán Toàn Diện Cho Kỷ Nguyên AI

Biwin M560 PCIe 5.0 SSD: Mang đến cách tiếp cận cân bằng hơn cho lưu trữ thế hệ mới

Snapdragon 8 Elite Gen 6 Pro: Đột phá công nghệ AI Frame Fusion

Mùa Back To School 2026 khác biệt của ASUS

Huawei khởi động chương trình Back To School 2026 “Ready – Set – Sync”

Galaxy Z Fold8 dùng màn hình 4:3, giá từ 46,99 triệu đồng tại Việt Nam

tin liên quan

DeepSeek từ chối “vắt sữa” người dùng, lối đi khác biệt so với Thung lũng Silicon

Các cụm AI của Trung Quốc hoạt động hết công suất khi mô hình AI của DeepSeek ra đời

Chi phí đào tạo AI của DeepSeek cao hơn 400 lần so với công bố

Phòng thí nghiệm AI DeepSeek của Trung Quốc có đến 50.000 GPU AI NVIDIA H100

AI Trung Quốc DeepSeek đối đầu ChatGPT khi sở hữu 50.000 GPU NVIDIA H100