OpenAI cho rằng các mô hình trí tuệ nhân tạo (AI) suy luận của họ có khả năng vượt trội hơn các mô hình thông thường khác trong một số lĩnh vực nhất định. Tuy điều này nếu nhìn chung là đúng, nhưng các mô hình suy luận cũng gây ra tốn kém hơn nhiều khi cho đánh giá mức hiệu suất.
Điều này khiến cho việc xác minh độc lập những tuyên bố của các công ty AI trở nên khó khăn.
Theo số liệu từ
Artificial Analysis, chi phí để cho đánh giá mô hình suy luận o1 của
OpenAI là 2.767,05 USD trên bộ 7 tiêu chuẩn kiểm tra AI phổ biến, gồm
MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 và
MATH-500.
Việc đánh giá
Claude 3.7 Sonnet của
Anthropic, mô hình suy luận
"lai", gần đây trên cùng 7 tiêu chuẩn kiểm tra AI đó phải tốn đến 1.485,35 USD. Trong khi việc đánh giá mô hình
o3-mini-high của
OpenAI chỉ tốn có 344,59 USD, theo
Artificial Analysis.
Mô hình suy luận
"lai" là loại mô hình AI kết hợp giữa khả năng suy luận và ngôn ngữ thông thường, để cân đối giữa hiệu suất cao và chi phí vận hành thấp hơn so với các mô hình suy luận thuần túy.
Artificial Analysis là tổ chức độc lập chuyên kiểm tra và đánh giá hiệu suất của các mô hình AI. Đây không phải là công ty sản xuất ra mô hình AI, mà chỉ hoạt động như bên thứ ba, cung cấp cái nhìn khách quan về khả năng và giới hạn của các mô hình từ
OpenAI, Anthropic, Google DeepMind...
Vai trò chính của Artificial Analysis
- Chạy các bài
"kiểm tra chuẩn" (benchmark) để đo lường khả năng của mô hình AI trong những lĩnh vực như hiểu ngôn ngữ, toán học, lập trình, suy luận logic...
- So sánh mô hình giữa các hãng dựa trên số liệu về hiệu suất.
- Cung cấp số liệu minh bạch cho cộng đồng AI, giới học thuật và cả người dùng quan tâm đến kỹ thuật này.
Tại sao Artificial Analysis là quan trọng?
Vì nhiều công ty AI tự cho công bố ra kết quả thử nghiệm của mình, nên cần những tổ chức như
Artificial Analysis để xác minh độc lập các tuyên bố đó, bảo đảm mức đô khách quan, minh bạch; giúp người tiêu dùng, chuyên gia nghiên cứu và doanh nghiệp hiểu rõ mô hình nào sẽ phù hợp tốt với nhu cầu của họ.
Điểm đáng chú ý là chi phí đánh giá một số mô hình suy luận rẻ hơn các mô hình khác. Chẳng hạn,
Artificial Analysis chỉ mất có 141,22 USD để đánh giá mô hình o1-mini của
OpenAI. Nhưng nhìn chung, các mô hình này gây ra việc tốn mất nhiều tiền để được cho đánh giá.
Artificial Analysis đã chi ra tổng cộng là khoảng 5,200 USD để đánh giá 12 mô hình suy luận, gần gấp đôi số tiền từng bỏ ra để phân tích hơn 80 mô hình không có suy luận (2,400 USD).
Artificial Analysis chỉ mất 108,85 USD để đánh giá mô hình
GPT-4o (không suy luận) của
OpenAI, trình làng vào tháng 5/2024 và 81,41 USD để đánh giá
Claude 3.6 Sonnet (phiên bản đời trước không suy luận của
Claude 3.7 Sonnet).
George Cameron, người đồng sáng lập
Artificial Analysis, nói với trang
TechCrunch rằng, tổ chức này có kế hoạch tăng chi tiêu cho việc đánh giá hiệu suất khi ngày càng có nhiều phòng thí nghiệm AI phát triển theo mô hình suy luận.
"Tại Artificial Analysis, chúng tôi cho thực hiện hàng trăm bài đánh giá mỗi tháng và dành một phần ngân sách đáng kể cho công việc này. Chúng tôi dự tính chi phí sẽ tăng lên khi các mô hình mới được phát hành ra thường xuyên hơn", George Cameron nói.
Artificial Analysis không phải là tổ chức duy nhất đang phải đối mặt với chi phí đánh giá AI ngày càng tăng.
Ross Taylor, Giám đốc điều hành công ty khởi nghiệp
General Reasoning, nói đã chi 580 USD để đánh giá
Claude 3.7 Sonnet trên khoảng 3,700 lời nhắc khác nhau. Ross Taylor ước tính rằng chỉ một lần chạy qua
MMLU Pro (bộ câu hỏi nhằm đánh giá khả năng hiểu ngôn ngữ của mô hình) sẽ tốn hơn 1.800 USD.
"Chúng ta đang tiến đến thế giới nơi mà một phòng thí nghiệm AI công bố mô hình đạt x% trên bài kiểm tra nào đó mà họ đã sử dụng lượng tài nguyên y nhất định, nhưng nguồn lực dành cho giới học thuật thì ít hơn y rất nhiều. Không ai có thể tái tạo kết quả đó", Ross Taylor viết mạng xã hội X.
Các mô hình suy luận thường gây tốn kém để đánh giá hiệu suất (Ảnh: Internet
Tạo ra rất nhiều token)
Tại sao các mô hình suy luận lại gây tốn kém để cho kiểm tra thử đến vậy? Chủ yếu là vì chúng tạo ra rất nhiều token.
Token là các đơn vị nhỏ của văn bản thô, chẳng hạn từ fantastic có thể được chia thành âm tiết fan, tas, và tic. Theo
Artificial Analysis, mô hình o1 đã tạo ra hơn 44 triệu token trong các bài đánh giá hiệu năng của
OpenAI, gấp khoảng 8 lần so với GPT-4o.
Hầu hết công ty AI hiện nay tính lệ phí khi cho sử dụng mô hình theo số lượng token, vì vậy để nhận thấy ra các chi phí này có thể tăng nhanh như thế nào.
Các bài kiểm tra hiện đại cũng có xu hướng khiến cho mô hình AI tạo ra nhiều token vì chứa những câu hỏi liên quan đến nhiệm vụ phức tạp và nhiều bước, theo chuyên gia nghiên cứu cap cấp Jean-Stanislas Denain tại
Epoch AI.
Epoch AI là Viện Nghiên cứu đa ngành chuyên phân tích xu hướng và quản trị trong lĩnh vực AI. Tổ chức này tập trung vào việc nghiên cứu các xu hướng trong học máy, kinh tế học về tự động hóa AI, quy trình thuật toán và số liệu trong học máy.
Epoch AI thu thập số liệu AI, hình thành ra các mô hình tương tác, trang web và công cụ, đồng thời cho xuất bản các bài nghiên cứu.
Vào tháng 12/2024,
Epoch AI tiết lộ nhận được tài trợ từ OpenAI cho dự án
FrontierMath, bộ kiểm tra đánh giá khả năng toán học của AI. Việc chậm trễ trong việc công bố thông tin này đã dẫn đến nhiều chỉ trích từ cộng đồng AI về tính minh bạch và khả năng xung đột về lợi ích.
"Các bài kiểm tra ngày nay đã có phần phức tạp hơn dù số lượng câu hỏi mỗi bài kiểm tra nói chung đã bị giảm. Chúng thường cố gắng đánh giá khả năng của mô hình AI trong việc thực hiện các nhiệm vụ thực tế, như viết và chạy mã, duyệt web và sử dụng máy tính", chuyên gia Jean-Stanislas Denain nói với trang
TechCrunch.
Ông này còn cho biết, các mô hình AI được sử dụng nhiều nhất đã trở nên mắc tiền hơn theo số token, theo thời gian. Ví dụ,
Claude 3 Opus của
Anthropic từng là mô hình AI tính lệ phí cao nhất khi ra mắt vào tháng 5/2024, với giá 70 USD cho mỗi triệu token ở đầu ra.
GPT-4.5 và
o1-pro của
OpenAI, đều được cho trình làng năm nay, có giá lần lượt là 150 USD và 600 USD cho mỗi triệu token ở đầu ra.
"Khi các mô hình trở nên tốt hơn theo thời gian thì chi phí để đạt được một mức hiệu suất nhất định đã giảm đi đáng kể. Thế nhưng, nếu muốn đánh giá các mô hình AI lớn nhất và tốt nhất tại bất cứ vào thời điểm nào, bạn vẫn phải chi trả nhiều tiền hơn", Jean-Stanislas Denain cho biết.
Nhiều công ty AI, gồm cả
OpenAI, cung cấp quyền truy cập miễn phí hoặc hỗ trợ chi phí cho các tổ chức đánh giá mức hiệu suất. Tuy nhiên, một số chuyên gia nhận định điều này lại gây ra ảnh hưởng đến mức độ khách quan của kết quả, dù cho không có thấy bằng chứng nào về sự thao túng, việc có liên quan từ phía công ty AI vẫn có thể làm giảm mức độ minh bạch của kết quả đưa ra.
"Từ quan điểm khoa học, nếu bạn cho công bố ra một kết quả mà không ai có thể tái tạo với cùng mô hình AI thì liệu đó còn gọi là khoa học hay không?", Ross Taylor viết trên X.
DeepSeek-R1 đứng xếp sau
o3-mini và
o1 của
OpenAI về mức hiệu suất nhưng có giá rẻ hơn rất nhiều
DeepSeek-R1 đứng xếp thứ ba về mức hiệu suất trong khi có mức giá rẻ hơn nhiều so với các mô hình hàng đầu của
OpenAI, theo
Artificial Analysis.
Mô hình AI do các công ty TQ tạo ra đang nhanh chóng thu hẹp khoảng cách về mức hiệu suất với các đối thủ hàng đầu Mỹ, đồng thời cung cấp mức giá thấp hơn đáng kể, theo
Artificial Analysis.
R1, mô hình suy luận do công ty khởi nghiệp
DeepSeek (TQ) tạo ra, đạt 60 điểm trên
Artificial Analysis Intelligence Index. Qua đó,
R1 trở thành mô hình AI thông minh đứng thứ ba trên thế giới. Xếp trên
R1 là hai mô hình của
OpenAI gồm
o1 (62 điểm) và
o3-mini (66 điểm).
Artificial Analysis Intelligence Index là chỉ số đánh giá mức hiệu suất của mô hình AI dựa trên nhiều tập số liệu về trí tuệ và suy luận.
Về giá dành cho công ty chế tạo ra,
DeepSeek-R1 đứng thứ 8 trên toàn cầu, còn
GPT-4.5 và
o1 của
OpenAI là hai mô hình AI đắt đỏ nhất.
Bảng xếp hạng này cho thấy các mô hình AI TQ đang nhanh chóng bắt kịp đối thủ phương Tây về mức hiệu suất, đồng thời tích cực làm giảm giá để cạnh tranh tại thị trường nội địa.
"Một năm trước, các công ty Mỹ thống trị tuyệt đối ở lĩnh vực AI tiên phong. Hôm nay, gần một tá công ty TQ đã sáng tạo các mô hình AI có thể sánh ngang hoặc vượt các mô hình thế hệ hiện tại của hầu hết phòng thí nghiệm Mỹ",
Artificial Analysis viết trên X vào tháng 2/25.
Một công ty AI hàng đầu khác là tập đoàn thương mại điện tử Alibaba.
QwQ-32B, mô hình suy luận mới nhất của Alibaba ra mắt đầu tháng 3, xếp thứ 4 về độ thông minh và thứ 10 về giá cả.
Cả
DeepSeek-R1 và
QwQ-32B đều được đánh giá thông minh hơn cũng như rẻ hơn các sản phẩm của phương Tây như
Claude 3.7 Sonnet (
Anthropic),
Mistral Large 2 (
Mistral AI),
Nova Pro (
Amazon).
DeepSeek-R1 chỉ tính 2,19 USD cho mỗi triệu token đầu ra khi truy cập qua giao diện lập trình ứng dụng (API).
Các công ty như
OpenAI hay
DeepSeek tính lệ phí dựa trên lượng token sinh ra để đo lường mức độ sử dụng dịch vụ.
Trong khi đó, các công ty Mỹ vẫn phụ thuộc vào tài nguyên điện toán khổng lồ để huấn luyện mô hình AI, dẫn đến tính lệ phí cao hơn cho công ty phát triển. Mô hình
o1 tính lệ phí đến 60 USD mỗi triệu token đầu ra, cao gấp gần 30 lần so với
DeepSeek-R1.
Cuối tháng 3/25,
OpenAI cho ra mắt
o1-pro, phiên bản nâng cấp cho
o1 trên nền tảng API của hãng.
o1-pro sử dụng nhiều tài nguyên tính toán hơn để cung cấp sự phản hồi tốt hơn, đồng thời trở thành mô hình AI đắt nhất từ trước đến nay của
OpenAI với mức giá 150 USD mỗi triệu token đầu vào và 600 USD mỗi triệu token đầu ra.