Gemini 3 Flash ghi nhận tỷ lệ sai lệch lên đến 91% trong các tình huống thiếu dữ liệu

Báo cáo từ Artificial Analysis chỉ ra Gemini 3 Flash có xu hướng tự tạo câu trả lời thay vì thừa nhận không biết, đạt tỷ lệ sai lệch lên đến 91% ở các truy vấn khó.

Mặc dù được đánh giá là một mô hình nhanh và thông minh, Gemini 3 Flash của Google đang gặp vấn đề nghiêm trọng trong việc xác định giới hạn kiến thức của chính nó. Theo một đánh giá mới nhất từ nhóm kiểm thử độc lập Artificial Analysis, khi đối mặt với những câu hỏi mơ hồ, phức tạp hoặc nằm ngoài dữ liệu huấn luyện, mô hình này hầu như luôn cố gắng đưa ra một câu trả lời thay vì thừa nhận sự thiếu hụt thông tin.

gemini-3-flash-ghi-nhan-ty-le-sai-lech-cao

Cụ thể, trong phần đánh giá “tỷ lệ ảo giác” thuộc bộ quy chuẩn AA-Omniscience, Gemini 3 Flash đã chạm mốc 91%. Con số này phản ánh tần suất mô hình đưa ra thông tin hư cấu trong các tình huống mà câu trả lời chính xác lẽ ra phải là “tôi không biết”.

Kết quả từ bài kiểm tra AA-Omniscience

Cần phân biệt rõ ràng rằng tỷ lệ 91% không đồng nghĩa với việc 91% tổng số câu trả lời của Gemini 3 Flash là sai. Thay vào đó, chỉ số này tập trung vào hành vi của AI trong các “vùng không chắc chắn”. Khi không có dữ liệu xác thực, thay vì từ chối trả lời, Gemini 3 Flash đã tự tạo ra nội dung không có thật trong hơn 90% trường hợp thử nghiệm.

Đây là một sự khác biệt tinh tế nhưng mang ý nghĩa quan trọng, đặc biệt khi Google đang tích hợp Gemini sâu rộng vào các sản phẩm cốt lõi như Google Search. Mặc dù kết quả này gây lo ngại về độ tin cậy trong các tình huống cụ thể, nó không phủ nhận sức mạnh tổng thể của Gemini 3.

Mô hình này vẫn đạt điểm số rất cao trong các bài kiểm tra đa năng, đứng ngang hàng hoặc thậm chí vượt trội so với các phiên bản mới nhất của ChatGPT và Claude. Vấn đề cốt lõi nằm ở sự “tự tin thái quá” của thuật toán khi xử lý các truy vấn nằm ngoài vùng kiến thức.

Bản chất của mô hình ngôn ngữ và thách thức kỹ thuật

Hiện tượng AI tự tạo thông tin sai lệch, hay còn gọi là “ảo giác”, đã tồn tại từ khi các chatbot ra mắt. Nguyên nhân sâu xa nằm ở cơ chế hoạt động của các mô hình AI tạo sinh, vốn là các công cụ dự đoán từ ngữ tiếp theo dựa trên xác suất thay vì đánh giá tính chân thực của thông tin.

Do đó, hành vi mặc định của hệ thống là tiếp tục tạo ra văn bản, ngay cả khi việc dừng lại và thừa nhận không biết sẽ là lựa chọn trung thực hơn. OpenAI và các đối thủ cạnh tranh cũng đang nỗ lực giải quyết vấn đề này bằng cách huấn luyện mô hình nhận diện giới hạn kiến thức. Tuy nhiên, đây là một thách thức lớn trong kỹ thuật máy học, bởi các mô hình phần thưởng (reward models) thường không ưu tiên câu trả lời trống so với một câu trả lời có vẻ tự tin.

Đối với Gemini, dù mô hình thường xuyên trích dẫn nguồn, sự thiếu khả năng “tạm dừng” đúng lúc có thể dẫn đến việc lan truyền thông tin sai lệch, đòi hỏi người dùng phải luôn kiểm chứng lại các nội dung do AI tạo ra.

Nguồn: techradar

MMOSITE - Thông tin công nghệ

Bài viết nổi bật

Gemini 3 Flash ghi nhận tỷ lệ sai lệch lên đến 91% trong các tình huống thiếu dữ liệu

Báo cáo từ Artificial Analysis chỉ ra Gemini 3 Flash có xu hướng tự tạo câu trả lời thay vì thừa nhận không biết, đạt tỷ lệ sai lệch lên đến 91% ở các truy vấn khó.

Tin mới

Cadence giới thiệu AuraStack AI Super Agent, nền tảng Agentic AI đầu tiên cho PCB

ASRock âm thầm xác nhận card đồ họa Radeon RX 9050 với hai phiên bản 4GB và 8GB

COLORFUL Ra Mắt Laptop Rimbook L1 Plus

AMD Ra Mắt Hệ Sinh Thái Điện Toán Toàn Diện Cho Kỷ Nguyên AI

Biwin M560 PCIe 5.0 SSD: Mang đến cách tiếp cận cân bằng hơn cho lưu trữ thế hệ mới

Snapdragon 8 Elite Gen 6 Pro: Đột phá công nghệ AI Frame Fusion

Mùa Back To School 2026 khác biệt của ASUS

Huawei khởi động chương trình Back To School 2026 “Ready – Set – Sync”

Galaxy Z Fold8 dùng màn hình 4:3, giá từ 46,99 triệu đồng tại Việt Nam

Philips Evnia 32M2N6901A: Màn hình QD-OLED 4K định hình không gian giải trí cao cấp

tin liên quan

Google AI Mode cho phép kết nối Instacart, Canva, YouTube Music

Google giảm giá gói cước AI Plus và tăng dung lượng đám mây

Google giới thiệu Gemini Intelligence và máy tính Googlebook tại sự kiện I/O

GOOGLE AI MODE MỞ RỘNG TÍNH NĂNG ĐẶT BÀN NHÀ HÀNG TỰ ĐỘNG

Google tích hợp công cụ tạo ảnh Nano Banana vào ứng dụng Maps

Google mở rộng tương thích AirDrop cho điện thoại Android trong năm 2026