OpenAI đáp trả DeepSeek bằng mô hình o3-mini
OpenAI hiện đang công khai chi tiết hơn về quá trình suy luận của o3-mini, mô hình suy luận mới nhất của họ. Thay đổi này được công bố trên tài khoản X của OpenAI và diễn ra trong bối cảnh phòng thí nghiệm AI này đang chịu áp lực ngày càng tăng từ DeepSeek-R1, một mô hình mở đối thủ cạnh tranh hiển thị đầy đủ các token suy luận của nó.
Các mô hình như o3 và R1 trải qua một quá trình "chuỗi suy nghĩ" (CoT) kéo dài, trong đó chúng tạo ra các token bổ sung để phân tích vấn đề, suy luận và kiểm tra các câu trả lời khác nhau và đạt được giải pháp cuối cùng. Trước đây, các mô hình suy luận của OpenAI đã ẩn chuỗi suy nghĩ của chúng và chỉ đưa ra một cái nhìn tổng quan cấp cao về các bước suy luận. Điều này gây khó khăn cho người dùng và nhà phát triển trong việc hiểu logic suy luận của mô hình và thay đổi hướng dẫn cũng như lời nhắc của họ để điều khiển nó đi đúng hướng.
OpenAI coi chuỗi suy nghĩ là một lợi thế cạnh tranh và đã giấu nó để ngăn các đối thủ sao chép để đào tạo mô hình của họ. Nhưng với R1 và các mô hình mở khác hiển thị đầy đủ dấu vết suy luận của chúng, việc thiếu minh bạch trở thành một bất lợi cho OpenAI.
Phiên bản mới của o3-mini hiển thị chi tiết hơn về CoT. Mặc dù chúng ta vẫn chưa thấy các token thô, nhưng nó cung cấp nhiều sự rõ ràng hơn về quá trình suy luận.
Tại sao điều này quan trọng đối với các ứng dụng
Trong các thí nghiệm trước đây của chúng tôi trên o1 và R1, chúng tôi nhận thấy rằng o1 hơi tốt hơn trong việc giải quyết các bài toán phân tích dữ liệu và suy luận. Tuy nhiên, một trong những hạn chế chính là không có cách nào để tìm ra lý do tại sao mô hình mắc lỗi - và nó thường mắc lỗi khi đối mặt với dữ liệu thực tế lộn xộn lấy từ web. Mặt khác, chuỗi suy nghĩ của R1 cho phép chúng tôi khắc phục sự cố và thay đổi lời nhắc của mình để cải thiện khả năng suy luận.
Ví dụ, trong một trong các thí nghiệm của chúng tôi, cả hai mô hình đều không đưa ra câu trả lời chính xác. Nhưng nhờ chuỗi suy nghĩ chi tiết của R1, chúng tôi đã có thể tìm ra rằng vấn đề không nằm ở bản thân mô hình mà ở giai đoạn truy xuất thu thập thông tin từ web. Trong các thí nghiệm khác, chuỗi suy nghĩ của R1 đã có thể cung cấp cho chúng tôi các gợi ý khi nó không phân tích được thông tin chúng tôi cung cấp, trong khi o1 chỉ cho chúng tôi một cái nhìn tổng quan rất sơ bộ về cách nó hình thành phản hồi của mình.
Chúng tôi đã thử nghiệm mô hình o3-mini mới trên một biến thể của thí nghiệm trước đó mà chúng tôi đã chạy với o1. Chúng tôi đã cung cấp cho mô hình một tệp văn bản chứa giá cổ phiếu khác nhau từ tháng 1 năm 2024 đến tháng 1 năm 2025. Tệp này bị nhiễu và không được định dạng, là hỗn hợp của văn bản thuần túy và các thành phần HTML. Sau đó, chúng tôi yêu cầu mô hình tính toán giá trị của một danh mục đầu tư 140 đô la vào cổ phiếu Magnificent 7 vào ngày đầu tiên của mỗi tháng từ tháng 1 năm 2024 đến tháng 1 năm 2025, được phân bổ đều cho tất cả các cổ phiếu (chúng tôi đã sử dụng thuật ngữ "Mag 7" trong lời nhắc để làm cho nó khó khăn hơn một chút).
CoT của o3-mini thực sự hữu ích lần này. Đầu tiên, mô hình suy luận về Mag 7 là gì, lọc dữ liệu để chỉ giữ lại các cổ phiếu liên quan (để làm cho vấn đề khó khăn, chúng tôi đã thêm một vài cổ phiếu không phải Mag 7 vào dữ liệu), tính toán số tiền hàng tháng cần đầu tư vào mỗi cổ phiếu và thực hiện các tính toán cuối cùng để đưa ra câu trả lời chính xác (danh mục đầu tư sẽ trị giá khoảng 2.200 đô la vào thời điểm mới nhất được đăng ký trong dữ liệu chúng tôi cung cấp cho mô hình).
Sẽ cần nhiều thử nghiệm hơn nữa để xem giới hạn của chuỗi suy nghĩ mới, vì OpenAI vẫn đang che giấu rất nhiều chi tiết. Nhưng trong các lần kiểm tra nhanh của chúng tôi, có vẻ như định dạng mới hữu ích hơn nhiều.
Điều này có ý nghĩa gì đối với OpenAI
Khi DeepSeek-R1 được phát hành, nó có ba lợi thế rõ ràng so với các mô hình suy luận của OpenAI: Nó là mã nguồn mở, rẻ và minh bạch.
Kể từ đó, OpenAI đã cố gắng thu hẹp khoảng cách. Trong khi o1 có giá 60 đô la cho mỗi một triệu token đầu ra, o3-mini chỉ có giá 4,40 đô la, đồng thời vượt trội hơn o1 trên nhiều tiêu chuẩn suy luận. R1 có giá khoảng 7 và 8 đô la cho mỗi một triệu token trên các nhà cung cấp Hoa Kỳ.
(DeepSeek cung cấp R1 với giá 2,19 đô la cho mỗi một triệu token trên máy chủ của riêng mình, nhưng nhiều tổ chức sẽ không thể sử dụng nó vì nó được lưu trữ ở Trung Quốc.)
Với sự thay đổi mới đối với đầu ra CoT, OpenAI đã xoay sở để phần nào giải quyết được vấn đề minh bạch.
Vẫn còn phải xem OpenAI sẽ làm gì về việc mở nguồn các mô hình của mình. Kể từ khi phát hành, R1 đã được điều chỉnh, phân nhánh và lưu trữ bởi nhiều phòng thí nghiệm và công ty khác nhau, có khả năng khiến nó trở thành mô hình suy luận được ưa thích cho các doanh nghiệp.
Giám đốc điều hành của OpenAI, Sam Altman gần đây đã thừa nhận rằng ông đã "ở sai phía của lịch sử" trong cuộc tranh luận về mã nguồn mở. Chúng ta sẽ phải xem nhận thức này sẽ thể hiện như thế nào trong các bản phát hành tiếp theo của OpenAI.