spot_imgspot_imgspot_imgspot_img
HomeCông NghệChatGPT và Gemini dễ bị đánh lừa bằng câu lệnh vô nghĩa

ChatGPT và Gemini dễ bị đánh lừa bằng câu lệnh vô nghĩa

Published on

Một nhóm nghiên cứu vừa công bố phương pháp mới cho phép đánh lừa các chatbot AI như ChatGPT và Gemini bằng cách sử dụng câu lệnh vô nghĩa, qua đó vượt qua bộ lọc an toàn và tiết lộ nội dung bị cấm.

Trong bối cảnh trí tuệ nhân tạo (AI) ngày càng được ứng dụng rộng rãi, các vấn đề về trách nhiệm đạo đức và an toàn trong sử dụng AI trở nên cấp thiết. Gần đây, một nhóm nghiên cứu gồm các chuyên gia từ Intel, Đại học Boise State và Đại học Illinois đã công bố phát hiện gây lo ngại về khả năng bị tấn công của các mô hình ngôn ngữ lớn (LLM) như ChatGPT và Gemini. Họ chỉ ra rằng các chatbot này có thể bị đánh lừa bằng cách “quá tải thông tin” (Information Overload), khiến hệ thống bị nhầm lẫn và bỏ qua các bộ lọc an toàn đã được thiết lập.

Phương pháp này sử dụng một công cụ tự động có tên “InfoFlood” để khai thác điểm yếu của AI khi phải xử lý lượng lớn dữ liệu phức tạp cùng lúc. Khi bị “bội thực” thông tin, AI không thể nhận diện đúng ý định thực sự của câu lệnh, dẫn đến việc cho phép trả lời các yêu cầu nguy hiểm hoặc nội dung bị cấm, vốn được thiết kế để ngăn chặn từ trước. Điều này đồng nghĩa với việc các rào cản an toàn có thể bị vượt qua một cách dễ dàng chỉ bằng cách gửi vào những câu lệnh rối rắm, vô nghĩa nhưng chứa đựng yêu cầu nhạy cảm được giấu kín trong đó.

Nhóm nghiên cứu giải thích rằng các mô hình AI hiện nay chủ yếu dựa vào mức độ bề mặt của ngôn ngữ, chưa đủ khả năng hiểu sâu sắc ý định ẩn sau thông tin phức tạp. Đây chính là điểm yếu bị khai thác để thực hiện các hành vi “jailbreak” – tức là đánh lừa AI để nó thực hiện những yêu cầu ngoài phạm vi cho phép. Họ cũng cho biết sẽ gửi báo cáo chi tiết về phát hiện này đến các tổ chức sở hữu các mô hình AI lớn để kịp thời khắc phục.

Phát hiện này làm nổi bật thách thức lớn trong việc đảm bảo an toàn và kiểm soát AI khi các hệ thống ngày càng phức tạp và được sử dụng rộng rãi trong nhiều lĩnh vực. Mặc dù các nhà phát triển đã thiết lập nhiều lớp bảo vệ, nhưng các lỗ hổng như trên cho thấy vẫn còn nhiều điểm yếu có thể bị khai thác bởi những kẻ có ý đồ xấu nhằm truyền tải thông tin độc hại hoặc gây ảnh hưởng tiêu cực.

Vấn đề này cũng đặt ra yêu cầu cấp thiết về việc nâng cao khả năng nhận diện và xử lý ngôn ngữ phức tạp của AI, đồng thời phát triển các bộ lọc an toàn thông minh hơn để hạn chế rủi ro. Các chuyên gia nhấn mạnh rằng việc nghiên cứu, phát hiện và công bố các lỗ hổng bảo mật như trên là bước quan trọng để thúc đẩy sự phát triển AI an toàn và có trách nhiệm hơn trong tương lai.

tin mới nhất

ASRock mở rộng vị thế thống trị với đầy đủ các dòng sản phẩm tản nhiệt nước AIO thế hệ mới

ASRock, nhà sản xuất bo mạch chủ, card đồ họa, mini PC, nguồn điện...

GIGABYTE ra mắt card đồ họa AORUS GeForce RTX 5090 INFINITY với thiết kế nhỏ gọn và công nghệ tản nhiệt đột phá tại...

GIGABYTE, thương hiệu máy tính hàng đầu thế giới, chính thức ra mắt card...

GIGABYTE nâng tầm trải nghiệm OLED với bốn mẫu màn hình mới, tích hợp các cải tiến về hiển thị tại CES 2026

GIGABYTE, thương hiệu máy tính hàng đầu thế giới, hôm nay chính thức ra...

GIGABYTE mở rộng tầm nhìn PC AI tại CES 2026 với GiMATE thông minh hơn và laptop gaming AI siêu mỏng mới

GIGABYTE, thương hiệu máy tính hàng đầu thế giới, ra mắt tầm nhìn PC...

nubia giới thiệu V80 Series với thiết kế bền bỉ, thông minh và thời trang

Bộ đôi nubia V80 Design và V80 Max hướng đến người dùng trẻ, kết...

tin liên quan

OpenAI thử nghiệm tính năng trò chuyện nhóm trên ChatGPT

OpenAI vừa bắt đầu thử nghiệm tính năng group...

OpenAI phát hành o3-mini: Mô hình tiết kiệm chi phí nhất

OpenAI o3-mini, đã được tiết lộ vào tháng 12...

Volkswagen ra mắt trợ lý giọng nói IDA hỗ trợ ChatGPT

Volkswagen vừa công bố áp dụng ChatGPT vào hệ...

iOS 18 sắp ra mắt với các tính năng AI giống như ChatGPT

Apple đã phát hành bản cập nhật iOS 17...