跳到主要內容區塊

計資中心電子報C&INC E-paper

專題報導

深度學習與GPT-4o mini
  • 卷期:v0072
  • 出版日期:2025-03-20

作者:周秉誼 / Tomofun 資深技術經理


GPT-4o mini不只是OpenAI所有的大語言模型中,最具成本效益的小型模型,也可說是市面上的商用大語言模型中最經濟實惠的。使用GPT-4o mini的成本,比起使用GPT-3.5 Turbo模型還要更為低廉,但模型的能力卻比GPT-4更為強大。隨著GPT-4o mini問世,可以預期將顯著擴展人工智慧應用的範圍,因為GPT-4o mini將使得人工智慧變得更加經濟實惠。本文將簡介GPT-4o mini的簡介、能力和成本分析。

 

前言

OpenAI推出的ChatGPT相關服務,不斷推陳出新,在2024年五月才推出了GPT-4o模型,在模型能力上比GPT-4版本更為強大。但更讓人震驚的是,在2024年七月,短短兩個月的時間,OpenAI又推出了GPT-4o mini版本。截至2024年八月,GPT-4o mini不只是OpenAI提出所有的大語言模型(Large Language Model, LLM)中,最具成本效益的小型模型,也可說是市面上的商用大語言模型中最經濟實惠的。使用GPT-4o mini的成本,比起使用GPT-3.5 Turbo模型還要更加低廉,但模型的能力卻比GPT-4更為強大。隨著GPT-4o mini問世,可以預期將顯著擴展AI應用的範圍,因為GPT-4o mini使得人工智慧變得更加經濟實惠。本文將簡介GPT-4o mini的簡介、能力和成本分析。

 

GPT-4o mini簡介

2024年七月,大語言模型的競爭已進入白熱化,各大科技公司紛紛推出自己的大語言模型,OpenAI才在五月時發佈了GPT-4o模型,在各大科技巨頭中再次確保了領先地位,又再一次拋出震撼彈,GPT-4o mini模型。GPT-4o mini模型在能力上不但直逼當前最強大的GPT-4o模型,在價格上更說是市面上最為低廉的商用模型。

除了低廉的成本之外,低延遲(latency)的特性,更使得GPT-4o mini模型適用於更廣泛的任務,例如串聯(Chain)或平行(Parallelize)多次模型呼叫,如關聯思考(Chain of Thought, CoT)或ReAct框架,都是需要透過多次大語言模型呼叫來完成任務,一旦有效降低成本和API呼叫的延遲,將大幅提升使用者體驗。

雖然GPT-4o mini在大語言模型中是個小型模型,但該模型擁有128K Token的上下文窗口(context window),每次API呼叫最多可以生成16K Token的回應,可以將大量上下文傳遞給模型,如輸入完整的程式碼或大量對話記錄進行問答、或進行檢索增強生成(Retrieval-Augmented Generation, RAG)時加入大量的參考資料等應用情境。

目前GPT-4o mini在API中支援文本(Text)和圖像(Vision),未來將會支援文本、圖像、甚至影片(Video)和聲音(Audio)的輸入和輸出。並且由於與GPT-4o共用改進後的Tokenizer,在處理非英語系的文本現在也會更加經濟有效。

 

GPT-4o mini效能

GPT-4o mini模型在文本處理和多模態推理(multimodal reasoning)的學術測試集(benchmark)中超越了GPT-3.5 Turbo和其他小型模型,並支援與GPT-4o相同的多國語言。它在工具及函式呼叫中的表現也非常出色,這使得開發者能夠構建出與外部系統互動、自動獲取資料或執行操作的應用程式。並且相比於GPT-3.5 Turbo,長上下文的性能也有所提升。在使用者盲測的LMSYS聊天機器人對戰排行榜上,GPT-4o mini也在短短的時間就衝上了前幾名,只略為落後GPT-4o,與Claude 3.5 Sonnet不相上下。

 

以下是GPT-4o mini在幾個測試集中的測試結果。

 

推理任務:GPT-4o mini在涉及文本和視覺的推理任務上優於其他小型模型,在文本處理和推理基準MMLU(Massive Multitask Language Understanding)上得分為82.0%,相比之下,Gemini Flash 得分為 77.9%,Claude Haiku得分為73.8%。

 

數學和程式語言能力:GPT-4o mini在數學推理和編寫程式任務中表現出色,超過了市場上的先前小型模型。在測量數學推理的MGSM(Math Generalization and Symbolic Manipulation)測試中,GPT-4o mini得分為 87.0%,相比之下,Gemini Flash得分為 75.5%,Claude Haiku得分為 71.7%。在測量編寫程式性能的HumanEval測試中,GPT-4o mini得分為 87.2%,相比之下,Gemini Flash得分為71.5%,Claude Haiku得分為75.9%。

 

多模態推理:GPT-4o mini在MMMU(Massive Multi-discipline Multimodal Understanding)中也顯示出強勁的表現,得分為59.4%,相比之下,Gemini Flash得分為56.1%,Claude Haiku得分為50.2%。

 

20250320_007208_01
圖1. GPT-4o mini效能排名:LMSYS聊天機器人對戰排行榜(2024/8)

(from: https://chat.lmsys.org/?leaderboard)

 

GPT-4o mini成本分析

在看完GPT-4o mini模型的效能表現之後,更令人驚訝的是,GPT-4o mini的使用成本居然只有GPT-4o模型的3%,還比GPT-3.5 Turbo模型還要便宜了66%,只要花費GPT-3.5 Turbo模型的三分之一。因此GPT-4o mini模型現在已可作為文本和視覺模型在Assistants、Chat Completions、Batch等API中提供開發人員使用,狹帶低廉成本的優勢,可以想見GPT-4o mini模型將大富擴展大語言模型等AI應用的範圍。

 

結語

在過去幾年中,我們見證了大語言模型的顯著進步,以及成本的大幅降低。GPT-4o mini模型的成本和2022年推出、能力較弱的模型text-davinci-003以來已經降低了99%。而在ChatGPT網頁中,免費版、Plus版和團隊版用戶已經使用GPT-4o mini全面取代GPT-3.5,提供效果更好、更有能力的問答體驗。

OpenAI的未來願望是,大語言模型將無縫地整合到每個應用程式和每個網站中。而GPT-4o mini模型正在為開發者更高效、更經濟地構建和擴展強大的AI應用鋪路。希望未來人工智慧將會變得更加普及、可靠,並融入我們日常生活的數位體驗之中。

 

參考資料

  • https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
  • https://chat.lmsys.org/?leaderboard