spot_imgspot_imgspot_imgspot_img
HomeCông NghệChatGPT và Gemini dễ bị đánh lừa bằng câu lệnh vô nghĩa

ChatGPT và Gemini dễ bị đánh lừa bằng câu lệnh vô nghĩa

Published on

Một nhóm nghiên cứu vừa công bố phương pháp mới cho phép đánh lừa các chatbot AI như ChatGPT và Gemini bằng cách sử dụng câu lệnh vô nghĩa, qua đó vượt qua bộ lọc an toàn và tiết lộ nội dung bị cấm.

Trong bối cảnh trí tuệ nhân tạo (AI) ngày càng được ứng dụng rộng rãi, các vấn đề về trách nhiệm đạo đức và an toàn trong sử dụng AI trở nên cấp thiết. Gần đây, một nhóm nghiên cứu gồm các chuyên gia từ Intel, Đại học Boise State và Đại học Illinois đã công bố phát hiện gây lo ngại về khả năng bị tấn công của các mô hình ngôn ngữ lớn (LLM) như ChatGPT và Gemini. Họ chỉ ra rằng các chatbot này có thể bị đánh lừa bằng cách “quá tải thông tin” (Information Overload), khiến hệ thống bị nhầm lẫn và bỏ qua các bộ lọc an toàn đã được thiết lập.

Phương pháp này sử dụng một công cụ tự động có tên “InfoFlood” để khai thác điểm yếu của AI khi phải xử lý lượng lớn dữ liệu phức tạp cùng lúc. Khi bị “bội thực” thông tin, AI không thể nhận diện đúng ý định thực sự của câu lệnh, dẫn đến việc cho phép trả lời các yêu cầu nguy hiểm hoặc nội dung bị cấm, vốn được thiết kế để ngăn chặn từ trước. Điều này đồng nghĩa với việc các rào cản an toàn có thể bị vượt qua một cách dễ dàng chỉ bằng cách gửi vào những câu lệnh rối rắm, vô nghĩa nhưng chứa đựng yêu cầu nhạy cảm được giấu kín trong đó.

Nhóm nghiên cứu giải thích rằng các mô hình AI hiện nay chủ yếu dựa vào mức độ bề mặt của ngôn ngữ, chưa đủ khả năng hiểu sâu sắc ý định ẩn sau thông tin phức tạp. Đây chính là điểm yếu bị khai thác để thực hiện các hành vi “jailbreak” – tức là đánh lừa AI để nó thực hiện những yêu cầu ngoài phạm vi cho phép. Họ cũng cho biết sẽ gửi báo cáo chi tiết về phát hiện này đến các tổ chức sở hữu các mô hình AI lớn để kịp thời khắc phục.

Phát hiện này làm nổi bật thách thức lớn trong việc đảm bảo an toàn và kiểm soát AI khi các hệ thống ngày càng phức tạp và được sử dụng rộng rãi trong nhiều lĩnh vực. Mặc dù các nhà phát triển đã thiết lập nhiều lớp bảo vệ, nhưng các lỗ hổng như trên cho thấy vẫn còn nhiều điểm yếu có thể bị khai thác bởi những kẻ có ý đồ xấu nhằm truyền tải thông tin độc hại hoặc gây ảnh hưởng tiêu cực.

Vấn đề này cũng đặt ra yêu cầu cấp thiết về việc nâng cao khả năng nhận diện và xử lý ngôn ngữ phức tạp của AI, đồng thời phát triển các bộ lọc an toàn thông minh hơn để hạn chế rủi ro. Các chuyên gia nhấn mạnh rằng việc nghiên cứu, phát hiện và công bố các lỗ hổng bảo mật như trên là bước quan trọng để thúc đẩy sự phát triển AI an toàn và có trách nhiệm hơn trong tương lai.

tin mới nhất

NVIDIA phát hành driver 591.44 hỗ trợ PhysX cho RTX 50 và tối ưu Battlefield 6

NVIDIA vừa ra mắt bản cập nhật GeForce Game Ready 591.44 khôi phục hỗ...

Garmin ra mắt inReach Mini 3 Plus hỗ trợ cảm ứng, gửi ảnh và tin nhắn giọng nói

Garmin công bố thiết bị liên lạc vệ tinh inReach Mini 3 Plus tích...

Kingston Ra Mắt Giải Pháp Lưu Trữ SSD Di Động Đa Kết Nối

Kingston Technology, công ty hàng đầu thế giới về các dòng sản phẩm...

ViewSonic Giới Thiệu Dòng Màn Hình Gaming Dual Mode 27-inch Mới với Chế Độ Esports Chuyên Dụng

ViewSonic Corp., nhà cung cấp giải hiển thị hàng đầu thế giới, đã mở...

AMD xác nhận vi xử lý Ryzen 7 9850X3D sở hữu xung nhịp 5.6 GHz

AMD đã tiết lộ Ryzen 7 9850X3D trên trang hỗ trợ chính thức, xác...

tin liên quan

OpenAI thử nghiệm tính năng trò chuyện nhóm trên ChatGPT

OpenAI vừa bắt đầu thử nghiệm tính năng group...

OpenAI phát hành o3-mini: Mô hình tiết kiệm chi phí nhất

OpenAI o3-mini, đã được tiết lộ vào tháng 12...

Volkswagen ra mắt trợ lý giọng nói IDA hỗ trợ ChatGPT

Volkswagen vừa công bố áp dụng ChatGPT vào hệ...

iOS 18 sắp ra mắt với các tính năng AI giống như ChatGPT

Apple đã phát hành bản cập nhật iOS 17...