Một nhóm nghiên cứu vừa công bố phương pháp mới cho phép đánh lừa các chatbot AI như ChatGPT và Gemini bằng cách sử dụng câu lệnh vô nghĩa, qua đó vượt qua bộ lọc an toàn và tiết lộ nội dung bị cấm.
Trong bối cảnh trí tuệ nhân tạo (AI) ngày càng được ứng dụng rộng rãi, các vấn đề về trách nhiệm đạo đức và an toàn trong sử dụng AI trở nên cấp thiết. Gần đây, một nhóm nghiên cứu gồm các chuyên gia từ Intel, Đại học Boise State và Đại học Illinois đã công bố phát hiện gây lo ngại về khả năng bị tấn công của các mô hình ngôn ngữ lớn (LLM) như ChatGPT và Gemini. Họ chỉ ra rằng các chatbot này có thể bị đánh lừa bằng cách “quá tải thông tin” (Information Overload), khiến hệ thống bị nhầm lẫn và bỏ qua các bộ lọc an toàn đã được thiết lập.
Phương pháp này sử dụng một công cụ tự động có tên “InfoFlood” để khai thác điểm yếu của AI khi phải xử lý lượng lớn dữ liệu phức tạp cùng lúc. Khi bị “bội thực” thông tin, AI không thể nhận diện đúng ý định thực sự của câu lệnh, dẫn đến việc cho phép trả lời các yêu cầu nguy hiểm hoặc nội dung bị cấm, vốn được thiết kế để ngăn chặn từ trước. Điều này đồng nghĩa với việc các rào cản an toàn có thể bị vượt qua một cách dễ dàng chỉ bằng cách gửi vào những câu lệnh rối rắm, vô nghĩa nhưng chứa đựng yêu cầu nhạy cảm được giấu kín trong đó.
Nhóm nghiên cứu giải thích rằng các mô hình AI hiện nay chủ yếu dựa vào mức độ bề mặt của ngôn ngữ, chưa đủ khả năng hiểu sâu sắc ý định ẩn sau thông tin phức tạp. Đây chính là điểm yếu bị khai thác để thực hiện các hành vi “jailbreak” – tức là đánh lừa AI để nó thực hiện những yêu cầu ngoài phạm vi cho phép. Họ cũng cho biết sẽ gửi báo cáo chi tiết về phát hiện này đến các tổ chức sở hữu các mô hình AI lớn để kịp thời khắc phục.
Phát hiện này làm nổi bật thách thức lớn trong việc đảm bảo an toàn và kiểm soát AI khi các hệ thống ngày càng phức tạp và được sử dụng rộng rãi trong nhiều lĩnh vực. Mặc dù các nhà phát triển đã thiết lập nhiều lớp bảo vệ, nhưng các lỗ hổng như trên cho thấy vẫn còn nhiều điểm yếu có thể bị khai thác bởi những kẻ có ý đồ xấu nhằm truyền tải thông tin độc hại hoặc gây ảnh hưởng tiêu cực.
Vấn đề này cũng đặt ra yêu cầu cấp thiết về việc nâng cao khả năng nhận diện và xử lý ngôn ngữ phức tạp của AI, đồng thời phát triển các bộ lọc an toàn thông minh hơn để hạn chế rủi ro. Các chuyên gia nhấn mạnh rằng việc nghiên cứu, phát hiện và công bố các lỗ hổng bảo mật như trên là bước quan trọng để thúc đẩy sự phát triển AI an toàn và có trách nhiệm hơn trong tương lai.



