首页站长资讯Google 升级 Gmail 人工智能垃圾邮件过滤器：RETVec 现能有效识别并处理「对抗性文本操纵」

Google 升级 Gmail 人工智能垃圾邮件过滤器：RETVec 现能有效识别并处理「对抗性文本操纵」

站长网2023-12-05 11:48:190阅

站长之家(ChinaZ.com) 12 月 5 日消息：Google 在其安全博客上宣布，Gmail 的垃圾邮件过滤功能经历了近年来最大规模的升级。这一升级主要体现在一种名为 RETVec（Resilient & Efficient Text Vectorizer，弹性高效文本向量化器）的新文本分类系统上。

Google 表示，RETVec 能有效识别并处理「对抗性文本操纵」，这类邮件通常包含特殊字符、表情符号、拼写错误和其他杂乱字符，过去这些内容对人类而言易于理解，但机器难以辨识。

此前，包含大量特殊字符的垃圾邮件往往能轻易绕过 Gmail 的防御。但随着 RETVec 技术的升级，用户反映表示近几个月这类邮件不再是问题。

RETVec 的独特之处在于，它不仅能够处理像「恭喜！您的彩票账户中有 1000 美元余额」这样的直接的垃圾邮件，还能识别出更为复杂的「对抗性文本操纵」。例如，邮件主题「𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭」之所以看起来加粗，是因为它使用了类似「数学粗体大写 C」这样的 Unicode 字符。这些字符虽然看似普通拉丁字母，但实际上并非如此，使得传统垃圾邮件过滤器难以识别。

Google 表示，RETVec 的高效性体现在其对字符级操纵的弹性，包括字符插入、删除、拼写错误、同形异义字、LEET 替代等。RETVec 模型基于一种能够高效编码所有 UTF-8 字符和单词的新型字符编码器。因此，RETVec 能够立即适用于 100 多种语言，无需查找表或固定的词汇量。

Google 强调，与使用固定词汇量或同形异义字查找表的传统方法相比，RETVec 的资源利用率大大降低。此外，RETVec 的开源特性使其有望广泛应用于世界各地，消除同形异义字攻击的威胁。

RETVec 采用类似于人类阅读的方式，通过机器学习 TensorFlow 模型识别单词的视觉「相似性」，而非其实际字符内容。Google 的测试表明，使用 RETVec 替换 Gmail 垃圾邮件分类器原有的文本向量化器，使得垃圾邮件检测率提高了 38%，误报率降低了 19.4%。同时，RETVec 的部署使模型的 TPU 使用率降低了 83%，使其成为近年来最大规模的防御升级之一。

据 Google 透露，RETVec 已在内部测试了一年时间，并已经部署到用户的 Gmail 账户中。