OpenAI GPT-4o与Google Gemini竞逐
【2024年5月14日讯】
OpenAI推出GPT-4o,大幅提升语音视觉文本能力;Google推出Gemini系列,整合至搜寻及Android。
OpenAI推出GPT-4o 提升助理能力
5月13日,OpenAI推出全新AI模型“GPT-4o”,大幅提升ChatGPT能力,使其更近人类语音助理。GPT-4o能即时推理音频、视觉及文本,创新是以统一神经网络处理所有输入输出。
发布会上,前沿研究主管Mark Chen示范GPT-4o感知用户情绪,当他急促呼吸时,GPT-4o风趣地劝他“不要像吸尘器般呼吸”,并建议放缓,在他深呼吸后表示肯定。此外,Mark示范GPT-4o具备情绪语音,能戏剧化、机械及歌唱朗读故事。
研究员Barret Zoph展示GPT-4o实时视觉功能。GPT-4o可以通过手机摄像头实时解决数学问题,如同一位真实的数学老师指导,亦能经前置镜头观察用户面部表情,分析其情绪。
OpenAI技术长Mira Murati宣布,GPT-4o免费向所有用户开放,付费及企业用户可享更多使用次数。
Google推新AI Gemini融入Android
翌日5月14日,Google I/O 2024大会上,为应市场需求,Google推出AI模型Gemini 1.5 Flash,力争市场竞争力。同时推出高清影片生成模型Veo,可生成1080p影片,长逾一分钟,支援多种视觉及电影风格。
Google宣布推出AI驱动的智能助手初版“Project Astra”,以及“Ask Photo”。Ask Photo让用户上传照片并提问,Gemini运用图像识别及语言处理技术作答,如“显示每个国家公园最佳照片”,Google Photos将利用GPS及判断“最佳”呈现。用户可请Google Photos为照片生成标题,以便分享社交媒体。
Google宣布在美国搜索结果顶端展示Gemini生成的详尽AI答复,务求提供更丰富准确资讯满足用户需求,此功能拟年底前惠及十亿人亦宣布整合Gemini至Android系统,为用户提供更智能手机体验。
伸延阅读
- OpenAI推GPT-4o
- 专题:Sora来袭 中国AI路茫茫?
- 中国版ChatGPT百度“文心一言”亮相,但被指表现不佳
- 文字变影片 OpenAI推Sora
- 专题:马斯克与OpenAI为何反目成仇?
- 马斯克聊天机器人拟开源
消息来源
- Park Chan,GPT-4o新功能是什么?可以即时语音对答,更可以直接理解视讯、音讯作即时回应,Esquire Hong Kong,2024年5月14日。
- 新浪财经,3分钟速览OpenAI春季发布会:GPT-4o炸裂登场!听说读写丝滑如真人,新浪财经,2024年5月14日。
- Gerrit De Vynck and Danielle Abril,Google pitches its vision for AI everywhere, from search to your phone,Washington Post,2024年5月14日。
- Google Blog,I/O 2024: New ways to experience Google AI on Android,Google,2024年5月14日。
- 罗亦丹,GPT-4o发布:可读懂用户情绪的智能助理如何从科幻走入现实,新京报,2024年5月14日。