Các nhà nghiên cứu cải thiện hiệu suất của tác nhân AI trên các nhiệm vụ không quen thuộc bằng trò chơi 'Dungeons and Dragons'.

Các tổ chức muốn triển khai tác nhân AI cần tinh chỉnh chúng trước, đặc biệt đối với các quy trình công việc thường mang tính lặp lại.
Trong khi một số tổ chức chỉ muốn các tác nhân AI thực hiện một loại nhiệm vụ cụ thể trong một quy trình, đôi khi chúng cần được đưa vào các môi trường mới với hy vọng có thể thích nghi.
Các nhà nghiên cứu từ Đại học Bưu chính Viễn thông Bắc Kinh đã giới thiệu một phương pháp mới mang tên AgentRefine. Phương pháp này dạy các tác nhân AI cách tự chỉnh sửa, giúp chúng trở nên tổng quát và thích nghi hơn.
Hạn chế của các phương pháp hiện tại
Theo các nhà nghiên cứu, các phương pháp tinh chỉnh hiện tại giới hạn tác nhân AI vào các nhiệm vụ giống với tập dữ liệu huấn luyện ban đầu (các nhiệm vụ "held-in") và không hoạt động hiệu quả trong các môi trường mới (các nhiệm vụ "held-out"). Bằng cách chỉ tuân theo các quy tắc được định sẵn từ dữ liệu huấn luyện, các tác nhân AI này gặp khó khăn khi "học hỏi" từ sai lầm và không thể trở thành tác nhân tổng quát để tham gia vào các quy trình công việc mới.
Để khắc phục hạn chế này, AgentRefine được thiết kế để tạo ra tập dữ liệu huấn luyện tổng quát hơn, cho phép mô hình học hỏi từ sai lầm và dễ dàng thích nghi với các quy trình công việc mới. Trong một bài báo mới, các nhà nghiên cứu cho biết mục tiêu của AgentRefine là “phát triển dữ liệu tinh chỉnh tác nhân tổng quát và thiết lập mối liên hệ giữa sự tổng quát hóa của tác nhân và khả năng tự cải thiện.” Nếu tác nhân AI có thể tự chỉnh sửa, chúng sẽ không lặp lại các lỗi đã học và mang những lỗi này vào các môi trường mới.
Lợi ích của tự chỉnh sửa
“Chúng tôi nhận thấy rằng tinh chỉnh tác nhân dựa trên dữ liệu tự cải thiện giúp tác nhân khám phá nhiều hành động khả thi hơn khi gặp các tình huống xấu, từ đó cải thiện khả năng tổng quát hóa trong các môi trường mới,” các nhà nghiên cứu viết.
Đào tạo AI lấy cảm hứng từ D&D
Lấy cảm hứng từ trò chơi nhập vai Dungeons & Dragons (D&D), các nhà nghiên cứu đã tạo ra các nhân vật, kịch bản để tác nhân tuân theo và những thử thách. Và tất nhiên, có cả một “Dungeon Master” (DM) dẫn dắt.
Họ chia quy trình tạo dữ liệu cho AgentRefine thành ba giai đoạn: tạo kịch bản, tạo hành trình (trajectory) và xác minh.
- Tạo kịch bản: Mô hình tạo ra một kịch bản hoặc hướng dẫn với thông tin về môi trường, nhiệm vụ và các hành động mà nhân vật có thể thực hiện. (Các nhà nghiên cứu đã thử nghiệm AgentRefine với các mô hình như Llama-3-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, GPT-4o-mini và GPT-4o).
- Tạo hành trình: Mô hình tạo dữ liệu tác nhân có lỗi, đồng thời đóng vai trò vừa là DM vừa là người chơi, đánh giá các hành động có thể thực hiện và kiểm tra xem chúng có lỗi hay không.
- Xác minh: Kiểm tra kịch bản và hành trình, cho phép tác nhân có khả năng tự chỉnh sửa.
Hiệu suất tốt hơn và khả năng xử lý đa dạng hơn
Các nhà nghiên cứu nhận thấy rằng các tác nhân được đào tạo bằng phương pháp và dữ liệu của AgentRefine hoạt động tốt hơn trong các nhiệm vụ đa dạng và thích nghi tốt hơn với các tình huống mới. Những tác nhân này tự chỉnh sửa nhiều hơn, giúp điều chỉnh hành động và ra quyết định để tránh lỗi, đồng thời trở nên mạnh mẽ hơn.
Đặc biệt, AgentRefine đã cải thiện hiệu suất của tất cả các mô hình trong việc xử lý các nhiệm vụ "held-out".
Yêu cầu trong doanh nghiệp
Doanh nghiệp cần tạo ra các tác nhân có khả năng thích nghi cao hơn với nhiệm vụ để tránh việc chỉ lặp lại những gì đã học, đồng thời trở thành những nhà ra quyết định tốt hơn. Việc điều phối tác nhân không chỉ giúp “quản lý luồng công việc” giữa nhiều tác nhân mà còn xác định liệu tác nhân có hoàn thành nhiệm vụ theo yêu cầu người dùng hay chưa.
OpenAI với o3 cung cấp tính năng “tổng hợp chương trình” để cải thiện khả năng thích nghi với nhiệm vụ. Các khung điều phối và đào tạo khác, như Magentic-One từ Microsoft, thiết lập các hành động để các tác nhân giám sát học cách phân phối nhiệm vụ giữa các tác nhân khác.