OpenAI GPT-4o與Google Gemini競逐

【2024年5月14日讯】

OpenAI推出GPT-4o，大幅提升語音視覺文本能力；Google推出Gemini系列，整合至搜尋及Android。

OpenAI推出GPT-4o 提升助理能力

OpenAI推出GPT-4o模型

5月13日，OpenAI推出全新AI模型「GPT-4o」，大幅提升ChatGPT能力，使其更近人類語音助理。GPT-4o能即時推理音頻、視覺及文本，創新是以統一神經網絡處理所有輸入輸出。

發布會上，前沿研究主管Mark Chen示範GPT-4o感知用戶情緒，當他急促呼吸時，GPT-4o風趣地勸他「不要像吸塵器般呼吸」，並建議放緩，在他深呼吸後表示肯定。此外，Mark示範GPT-4o具備情緒語音，能戲劇化、機械及歌唱朗讀故事。

研究員Barret Zoph展示GPT-4o實時視覺功能。GPT-4o可以通過手機攝像頭實時解決數學問題，如同一位真實的數學老師指導，亦能經前置鏡頭觀察用戶面部表情，分析其情緒。

OpenAI技術長Mira Murati宣布，GPT-4o免費向所有用戶開放，付費及企業用戶可享更多使用次數。

Google推新AI Gemini融入Android

翌日5月14日，Google I/O 2024大會上，為應市場需求，Google推出AI模型Gemini 1.5 Flash，力爭市場競爭力。同時推出高畫質影片生成模型Veo，可生成1080p影片，長逾一分鐘，支援多種視覺及電影風格。

Google宣布推出AI驅動的智能助手初版「Project Astra」，以及「Ask Photo」。Ask Photo讓用戶上傳照片並提問，Gemini運用圖像識別及語言處理技術作答，如「顯示每個國家公園最佳照片」，Google Photos將利用GPS及判斷「最佳」呈現。用戶可請Google Photos為照片生成標題，以便分享社交媒體。

Google宣布在美國搜索結果頂端展示Gemini生成的詳盡AI答覆，務求提供更豐富準確資訊滿足用戶需求，此功能擬年底前惠及十億人亦宣布整合Gemini至Android系統，為用戶提供更智能手機體驗。