GPT-4o中文词库沦陷色情
外观
【2024年5月20日讯】
GPT-4o中文词库遭充斥色情赌博字词,研究指OpenAI在数据清理上存在疏忽。
根据普林斯顿大学博士生蔡天乐(Tianle Cai)的观察,OpenAI于本月13日推出的GPT-4o在解析和压缩中文提示时存在使用不当的分词问题,导致充斥着垃圾邮件和色情词汇。
蔡天乐查看GPT-4o公开分词库,并列出模型解析中文的100个最长分词,其中只有三个常用于日常对话,其余的均与赌博或色情语境相关。最长分词指的是“免费日本色情影片观看”。
蔡天乐指出,问题显然出在训练分词器的语料库上,英文的分词没有问题,但中文的分词存在问题,OpenAI可能未适当清理中文数据。
卡内基梅隆大学博士生耿正阳(Zhengyang Geng)称,GPT-3.5和旧版的GPT-4的分词器在中文分词方面没有此问题,最长的中文分词是“生命周期”或“自动生成”等常用词。
前Google搜索团队成员、门罗创投的AI投资者Deedy Das指出,垃圾内容普遍存在是已知的问题,修复并不困难。Das认为OpenAI可能在发布GPT-4o之前未清理中文数据集或分词。
《麻省理工科技评论》引述专家指出,解决这个问题并不难,但污染的分词和模型若在未来迭代中被继承,情况或会转趋复杂。报道亦提及,目前尚无法测试GPT-4的影片音频功能是否受这些中文分词问题影响。
消息来源
- Zeyi Yangarchive page,GPT-4o’s Chinese token-training data is polluted by spam and porn websites,MIT Technology Review,2024年5月17日。