QuinTech
AITechnology

R1 của DeepSeek được cho là 'dễ bị jailbreak' hơn so với các mô hình AI khác.

10-02-2025·02:03 AM
DeepSeek logo
Nguồn: VCG / Getty Images

Theo The Wall Street Journal, mô hình AI mới nhất của DeepSeek – công ty trí tuệ nhân tạo Trung Quốc đang thu hút sự chú ý tại Silicon Valley và Wall Street – có thể bị khai thác để tạo ra nội dung độc hại, bao gồm hướng dẫn chế tạo vũ khí sinh học và chiến dịch thúc đẩy hành vi tự hại ở thanh thiếu niên.


Sam Rubin, Phó Chủ tịch cấp cao của Unit 42 – bộ phận tình báo mối đe dọa và phản ứng sự cố tại Palo Alto Networks, cho biết DeepSeek "dễ bị jailbreak hơn so với các mô hình khác", tức là dễ bị thao túng để tạo ra nội dung bất hợp pháp hoặc nguy hiểm.


The Wall Street Journal cũng trực tiếp kiểm tra mô hình R1 của DeepSeek. Mặc dù hệ thống có một số cơ chế bảo vệ cơ bản, nhưng tờ báo này cho biết họ đã thành công trong việc thuyết phục AI thiết kế một chiến dịch truyền thông xã hội nhắm vào tâm lý mong muốn được chấp nhận của thanh thiếu niên, lợi dụng sự nhạy cảm cảm xúc thông qua thuật toán đề xuất nội dung.


Ngoài ra, mô hình này cũng bị cho là đã cung cấp hướng dẫn thực hiện một vụ tấn công bằng vũ khí sinh học, viết một bản tuyên ngôn ủng hộ Hitler và tạo một email lừa đảo chứa mã độc. The Wall Street Journal cho biết khi nhập cùng một loạt câu lệnh vào ChatGPT, mô hình của OpenAI đã từ chối thực hiện.


Trước đó, đã có báo cáo cho rằng ứng dụng DeepSeek né tránh các chủ đề nhạy cảm như sự kiện Thiên An Môn hay vấn đề Đài Loan. Dario Amodei, CEO của Anthropic, cũng từng nhận xét rằng DeepSeek có kết quả "tệ nhất" trong một bài kiểm tra về an toàn vũ khí sinh học.

Anthony Ha
TechCrunch
Source by: TechCrunch

Thẻ / Từ khoá