OpenAI's o3 gợi ý rằng các mô hình AI đang mở rộng theo những cách mới - nhưng chi phí cũng tăng theo
Tháng trước, các nhà sáng lập và nhà đầu tư trong lĩnh vực AI đã chia sẻ với TechCrunch rằng chúng ta đang bước vào "kỷ nguyên thứ hai của các quy luật mở rộng," khi những phương pháp truyền thống để cải thiện mô hình AI bắt đầu cho thấy hiệu quả giảm dần. Một phương pháp mới đầy triển vọng được đề xuất để giữ vững đà tiến bộ là "test-time scaling" (mở rộng quy mô trong quá trình kiểm thử) - và đây dường như là yếu tố đứng sau thành công của mô hình o3 từ OpenAI. Tuy nhiên, phương pháp này cũng mang theo những hạn chế riêng.
Cộng đồng AI nhìn nhận thông báo về mô hình o3 của OpenAI như một bằng chứng rằng quá trình mở rộng quy mô của AI chưa hề "chạm trần." Mô hình o3 đạt kết quả vượt trội trên các tiêu chuẩn đánh giá, bao gồm điểm cao nhất trong bài kiểm tra năng lực tổng quát ARC-AGI, và đạt 25% trên một bài kiểm tra toán học khó mà chưa mô hình AI nào vượt qua mức 2%.
Dĩ nhiên, đội ngũ tại TechCrunch vẫn giữ thái độ thận trọng và chờ đợi trải nghiệm thực tế với o3 (rất ít người có cơ hội thử nghiệm cho đến nay). Nhưng ngay cả trước khi o3 ra mắt, cộng đồng AI đã tin rằng có điều gì đó lớn lao đang thay đổi.
Noam Brown, đồng sáng tạo dòng mô hình o-series của OpenAI, cho biết vào thứ Sáu rằng họ công bố những cải tiến ấn tượng của o3 chỉ ba tháng sau khi ra mắt o1 — một khoảng thời gian khá ngắn để đạt được bước tiến lớn như vậy.
Jack Clark, đồng sáng lập Anthropic, đã viết trong một bài blog vào thứ Hai rằng mô hình o3 là minh chứng cho thấy "tiến bộ của AI sẽ nhanh hơn vào năm 2025 so với năm 2024." (Tuy nhiên, cần lưu ý rằng việc khẳng định các quy luật mở rộng của AI vẫn tiếp diễn sẽ mang lại lợi ích cho Anthropic — đặc biệt trong việc huy động vốn — ngay cả khi Clark đang khen ngợi một đối thủ cạnh tranh.)
Clark cũng cho biết, vào năm tới, giới AI sẽ kết hợp các phương pháp "test-time scaling" với cách mở rộng truyền thống thông qua tiền huấn luyện để tối ưu hóa hiệu quả từ các mô hình AI. Có lẽ ông ám chỉ rằng Anthropic và các nhà cung cấp mô hình AI khác sẽ phát hành những mô hình lý luận tương tự vào năm 2025, giống như cách Google vừa làm tuần trước.
Test-time scaling nghĩa là OpenAI sử dụng nhiều tài nguyên tính toán hơn trong giai đoạn suy luận (inference) của ChatGPT, tức là thời gian sau khi người dùng nhấn "Enter" trên một yêu cầu. Hiện tại, chưa rõ chính xác cách thức hoạt động phía sau: OpenAI có thể đang sử dụng nhiều chip máy tính hơn để xử lý câu trả lời, sử dụng các chip suy luận mạnh hơn, hoặc chạy các chip này trong thời gian dài hơn — có trường hợp lên đến 10-15 phút — trước khi AI đưa ra câu trả lời. Dù các chi tiết về cách o3 được xây dựng vẫn chưa rõ ràng, nhưng các bài kiểm tra ban đầu cho thấy test-time scaling có thể là một cách hiệu quả để cải thiện hiệu suất của mô hình AI.
Mặc dù o3 có thể mang lại niềm tin mới vào tiến trình của các quy luật mở rộng AI, mô hình mới nhất của OpenAI cũng tiêu thụ một lượng tài nguyên tính toán ở mức chưa từng có, dẫn đến chi phí cao hơn cho mỗi lần tạo ra câu trả lời.
“Có lẽ điểm cần lưu ý quan trọng nhất ở đây là hiểu rằng một trong những lý do khiến o3 vượt trội hơn là do nó tốn kém hơn trong giai đoạn suy luận — khả năng sử dụng tính toán tại thời điểm kiểm thử (test-time compute) giúp chuyển đổi tài nguyên tính toán thành câu trả lời tốt hơn trong một số bài toán,” Jack Clark viết trong blog của mình. “Điều này thú vị bởi nó khiến chi phí vận hành các hệ thống AI trở nên khó dự đoán hơn — trước đây, bạn có thể tính toán chi phí phục vụ một mô hình tạo sinh chỉ bằng cách xem xét mô hình và chi phí để tạo ra một đầu ra nhất định.”
Clark và những người khác đã chỉ ra hiệu suất của o3 trên bài kiểm tra ARC-AGI — một bài kiểm tra khó dùng để đánh giá các bước đột phá về trí tuệ nhân tạo tổng quát (AGI) — như một dấu hiệu cho sự tiến bộ. Tuy nhiên, cần lưu ý rằng việc vượt qua bài kiểm tra này, theo các nhà sáng lập của nó, không có nghĩa là một mô hình AI đã đạt được AGI, mà chỉ là một cách để đo lường sự tiến bộ hướng tới mục tiêu còn mơ hồ này. Dẫu vậy, o3 đã vượt xa tất cả các mô hình AI trước đó tham gia bài kiểm tra, đạt 88% trong một lần thử. Mô hình tốt nhất tiếp theo của OpenAI, o1, chỉ đạt 32%.

Nhưng trục x dạng logarit trên biểu đồ này có thể khiến một số người cảm thấy lo ngại. Phiên bản o3 đạt điểm cao nhất đã tiêu tốn hơn 1.000 USD tính toán cho mỗi nhiệm vụ. Trong khi đó, các mô hình o1 chỉ tốn khoảng 5 USD mỗi nhiệm vụ, và phiên bản o1-mini chỉ mất vài cent.
François Chollet, người tạo ra bài kiểm tra ARC-AGI, viết trong một blog rằng OpenAI đã sử dụng lượng tài nguyên tính toán nhiều gấp khoảng 170 lần để đạt được điểm số 88%, so với phiên bản hiệu quả cao của o3 chỉ kém 12% điểm. Phiên bản đạt điểm cao của o3 đã tiêu tốn hơn 10.000 USD tài nguyên để hoàn thành bài kiểm tra, khiến nó quá đắt để tham gia cạnh tranh cho ARC Prize — một cuộc thi chưa có mô hình AI nào vượt qua bài kiểm tra ARC.
Tuy nhiên, Chollet nhận định rằng o3 vẫn là một bước đột phá đáng kể cho các mô hình AI.
“o3 là một hệ thống có khả năng thích ứng với các nhiệm vụ mà nó chưa từng gặp trước đây, và có thể nói là tiến gần đến mức hiệu suất của con người trong lĩnh vực ARC-AGI,” Chollet viết trong blog. “Tất nhiên, sự linh hoạt như vậy phải trả giá đắt và chưa thể coi là kinh tế: Bạn có thể trả cho con người để giải các bài ARC-AGI với chi phí khoảng 5 USD mỗi nhiệm vụ (chúng tôi đã thử), trong khi chỉ tiêu thụ vài cent năng lượng.”
Hiện tại, còn quá sớm để tập trung quá nhiều vào mức giá cụ thể — giá của các mô hình AI đã giảm mạnh trong năm qua, và OpenAI vẫn chưa công bố chi phí chính thức của o3. Tuy nhiên, các mức giá này cho thấy lượng tài nguyên tính toán cần thiết để phá vỡ, dù chỉ một chút, các giới hạn hiệu suất do các mô hình AI hàng đầu hiện nay đặt ra.
Điều này đặt ra một số câu hỏi. o3 thực sự được tạo ra để làm gì? Và cần bao nhiêu tài nguyên tính toán nữa để đạt được tiến bộ trong suy luận với o4, o5 hoặc bất kỳ tên gọi nào mà OpenAI đặt cho các mô hình lý luận tiếp theo của họ?
Có vẻ như o3, hoặc các mô hình kế thừa của nó, khó có thể trở thành công cụ sử dụng hàng ngày giống như GPT-4 hoặc Google Search. Các mô hình này tiêu tốn quá nhiều tài nguyên tính toán để trả lời các câu hỏi nhỏ nhặt như, “Làm thế nào để Cleveland Browns vẫn có thể vào vòng playoffs năm 2024?”
Thay vào đó, các mô hình AI với khả năng tính toán mở rộng tại thời điểm kiểm thử có thể chỉ hữu ích cho các câu hỏi lớn như, “Làm thế nào để Cleveland Browns trở thành đội vô địch Super Bowl vào năm 2027?” Ngay cả khi đó, có lẽ chỉ đáng với chi phí tính toán cao nếu bạn là tổng giám đốc của Cleveland Browns và đang sử dụng các công cụ này để đưa ra những quyết định quan trọng.
OpenAI trước đó đã giới thiệu gói $200 để sử dụng phiên bản o1 với hiệu suất tính toán cao, và theo báo cáo, công ty còn cân nhắc tạo ra các gói đăng ký có giá lên đến $2,000. Khi nhìn vào lượng tài nguyên tính toán mà o3 sử dụng, bạn sẽ hiểu tại sao OpenAI lại cân nhắc mức giá này.
Tuy nhiên, việc sử dụng o3 cho các công việc có tác động lớn vẫn có những hạn chế. Như François Chollet đã chỉ ra, o3 không phải là AGI, và nó vẫn thất bại trong một số nhiệm vụ rất đơn giản mà con người dễ dàng thực hiện.
Điều này không quá bất ngờ, vì các mô hình ngôn ngữ lớn vẫn gặp vấn đề nghiêm trọng với hiện tượng "hallucination" (ảo giác) — và dường như o3 cùng với test-time compute cũng chưa giải quyết được vấn đề này. Đó là lý do tại sao ChatGPT và Gemini luôn bao gồm cảnh báo dưới mỗi câu trả lời của họ, khuyên người dùng không nên tin tưởng câu trả lời một cách tuyệt đối. Nếu AGI thực sự được phát triển, có lẽ nó sẽ không cần đến những cảnh báo như vậy.
Một cách để đạt thêm những tiến bộ trong test-time scaling có thể là sử dụng các chip suy luận AI tốt hơn. Hiện nay, có rất nhiều startup đang tập trung vào lĩnh vực này, chẳng hạn như Groq hay Cerebras. Ngoài ra, một số startup khác, như MatX, đang thiết kế các chip AI hiệu quả về chi phí hơn. Anjney Midha, đối tác tại Andreessen Horowitz, từng chia sẻ với TechCrunch rằng ông kỳ vọng các startup này sẽ đóng vai trò lớn hơn trong việc mở rộng test-time scaling trong tương lai.
Mặc dù o3 là một cải tiến đáng kể về hiệu suất của các mô hình AI, nó cũng đặt ra nhiều câu hỏi mới về chi phí và cách sử dụng. Tuy nhiên, hiệu suất của o3 củng cố thêm luận điểm rằng test-time compute có thể là cách tốt nhất tiếp theo mà ngành công nghệ sử dụng để mở rộng các mô hình AI.