Báo cáo từ Artificial Analysis chỉ ra Gemini 3 Flash có xu hướng tự tạo câu trả lời thay vì thừa nhận không biết, đạt tỷ lệ sai lệch lên đến 91% ở các truy vấn khó.
Mặc dù được đánh giá là một mô hình nhanh và thông minh, Gemini 3 Flash của Google đang gặp vấn đề nghiêm trọng trong việc xác định giới hạn kiến thức của chính nó. Theo một đánh giá mới nhất từ nhóm kiểm thử độc lập Artificial Analysis, khi đối mặt với những câu hỏi mơ hồ, phức tạp hoặc nằm ngoài dữ liệu huấn luyện, mô hình này hầu như luôn cố gắng đưa ra một câu trả lời thay vì thừa nhận sự thiếu hụt thông tin.

Cụ thể, trong phần đánh giá “tỷ lệ ảo giác” thuộc bộ quy chuẩn AA-Omniscience, Gemini 3 Flash đã chạm mốc 91%. Con số này phản ánh tần suất mô hình đưa ra thông tin hư cấu trong các tình huống mà câu trả lời chính xác lẽ ra phải là “tôi không biết”.
Kết quả từ bài kiểm tra AA-Omniscience
Cần phân biệt rõ ràng rằng tỷ lệ 91% không đồng nghĩa với việc 91% tổng số câu trả lời của Gemini 3 Flash là sai. Thay vào đó, chỉ số này tập trung vào hành vi của AI trong các “vùng không chắc chắn”. Khi không có dữ liệu xác thực, thay vì từ chối trả lời, Gemini 3 Flash đã tự tạo ra nội dung không có thật trong hơn 90% trường hợp thử nghiệm.
Đây là một sự khác biệt tinh tế nhưng mang ý nghĩa quan trọng, đặc biệt khi Google đang tích hợp Gemini sâu rộng vào các sản phẩm cốt lõi như Google Search. Mặc dù kết quả này gây lo ngại về độ tin cậy trong các tình huống cụ thể, nó không phủ nhận sức mạnh tổng thể của Gemini 3.
Mô hình này vẫn đạt điểm số rất cao trong các bài kiểm tra đa năng, đứng ngang hàng hoặc thậm chí vượt trội so với các phiên bản mới nhất của ChatGPT và Claude. Vấn đề cốt lõi nằm ở sự “tự tin thái quá” của thuật toán khi xử lý các truy vấn nằm ngoài vùng kiến thức.
Bản chất của mô hình ngôn ngữ và thách thức kỹ thuật
Hiện tượng AI tự tạo thông tin sai lệch, hay còn gọi là “ảo giác”, đã tồn tại từ khi các chatbot ra mắt. Nguyên nhân sâu xa nằm ở cơ chế hoạt động của các mô hình AI tạo sinh, vốn là các công cụ dự đoán từ ngữ tiếp theo dựa trên xác suất thay vì đánh giá tính chân thực của thông tin.
Do đó, hành vi mặc định của hệ thống là tiếp tục tạo ra văn bản, ngay cả khi việc dừng lại và thừa nhận không biết sẽ là lựa chọn trung thực hơn. OpenAI và các đối thủ cạnh tranh cũng đang nỗ lực giải quyết vấn đề này bằng cách huấn luyện mô hình nhận diện giới hạn kiến thức. Tuy nhiên, đây là một thách thức lớn trong kỹ thuật máy học, bởi các mô hình phần thưởng (reward models) thường không ưu tiên câu trả lời trống so với một câu trả lời có vẻ tự tin.
Đối với Gemini, dù mô hình thường xuyên trích dẫn nguồn, sự thiếu khả năng “tạm dừng” đúng lúc có thể dẫn đến việc lan truyền thông tin sai lệch, đòi hỏi người dùng phải luôn kiểm chứng lại các nội dung do AI tạo ra.
Nguồn: techradar



