Emoji 识别与过滤

后台提了一个需求，要求用户输入上传的内容中不能带 Emoji。网上有一些资料，都提到了过滤 Emoji 的方法，但都存在多过滤或少过滤的情况。我从官方的标准资料入手，希望能解决掉这个问题。

那我们先看看 Emoji 有什么特征。

Emoji 是什么

Emoji 就是可以在文字中输入的表情符。想必大家都用过：

??????????

看到这些图标，不用多说了吧。当前正式标准为 11.0 版本，Emoji 是 Unicode 的一部分，它在 Unicode 中有对应的码点（ CodePoint），也就是说，Emoji 符号就是一个文字。

根据 Emoji 维基百科说明，当前版本中共有 1212 个 Emoji ，实际上这指的是单码点的 Emoji，而还有一些 Emoji 是通过多个码点组合而成。

例如"零宽度连接符"（ZERO WIDTH JOINER，缩写 ZWJ）U+200D。将U+1F468：男人 U+1F469：女人 U+1F467：女孩这三个码点使用U+200D连接起来，U+1F468 U+200D U+1F469 U+200D U+1F467，就会显示为一个 Emoji ????????，表示他们组成的家庭。如果用户的系统不支持这种方法，就还是显示为三个独立的 Emoji ??????。

例如如代表肤色的(U+1F3FB–U+1F3FF): ?? ?? ?? ?? ?? ，发色的（U+1F9B0-U+1F9B3）,组合起来后得到同一个表情的不同肤色版本，这一特性在国际大厂的输入法上可以看到，例如 Apple、Google、Samsung 的输入法上都可以输入。

例如 U+1F1E8 U+1F1F3 组合起来成了中国国旗。

由于多码点组合的存在，可以显示的 Emoji 实际上数量多于 1212 个。

Emoji 的识别

一个字符串是否包含了 Emoji？通过上面的描述，我们可以想到，如果字符串中包含了 Emoji 的码点，那不就说明该字符串包含了 Emoji 吗？因此，我们先获取一份完整的码点集合用来判断。

Emoji 所有的码点

那 Emoji 的码点有哪些呢，Unicode 组织的 Unicode? Emoji Charts v11.0 页面中可以找到完整的 Emoji 码点数据：emoji-data.txt ，这个表的内容的解读可见参考资料。

数据经过以下脚本getEmojiData.sh 处理，可以得到一个完整的、有重复 的码表。

#! /bin/bash
cat "$1" |
grep -v ^# |
grep -v ^$ |
while read line
do
    echo $line | cut -d \; -f 1
done

$ ./getEmojiData.sh emoji-data.txt > emoji-all-data.txt

得到的格式如下，数量数百行，列出来的码点不重复的有 3000 多个：

0023
002A
0030..0039
00A9
00AE
...

由于这个码点表有重复元素，我们选择将所有码点添加到 Set 集合中。代码如下（使用列编辑模式可快速编辑完成）：

public class EmojiUtils {

    private static final String TAG = EmojiUtils.class.getSimpleName();
    private static Set<Character> emojiSignatureSet = new HashSet<>();

    private EmojiUtils() {}

    static {
        // 省略……
        addUnicodeToSet(emojiSignatureSet, 0x2122);
        addUnicodeToSet(emojiSignatureSet, 0x2139);
        addUnicodeToSet(emojiSignatureSet, 0x2194, 0x2199);
        addUnicodeToSet(emojiSignatureSet, 0x21A9, 0x21AA);
        // 省略……
    }

    private static void addUnicodeToSet(Set<Character> set, int code) {
        if (set == null) {
            return;
        }
        set.add((char) code);
    }

    private static void addUnicodeToSet(Set<Character> set, int codeStart, int codeEnd) {
        if (set == null) {
            return;
        }
        for (int i = codeStart; i <= codeEnd; i++) {
            addUnicodeToSet(set, i);
        }
    }
}

初试 Emoji 识别

我们有了码表，识别方法就好说了，将字符串拆成单个字符，逐一判断是否是 Emoji 特征码点。

public static boolean isContainEmoji(String s) {
    char[] chars = s.toCharArray();
    int charsLength = chars.length;

    for (int i = 0; i < charsLength; i++) {
        char c = chars[i];
        if (emojiSignatureSet.contains(c)) {
            return true;
        }
    }
    return false;
}

有了识别的方法 EmojiUtils.isContainEmoji(String s) 后，我们来实践一下，过滤掉输入的 Emoji：

etTest.setFilters(new InputFilter[]{new InputFilter() {
    @Override
    public CharSequence filter(CharSequence source, int start, int end, Spanned dest, int dstart, int dend) {
        if (EmojiUtils.isContainEmoji(source.toString())) {
            return "";
        }
        return source;
    }
}});

运行起来，你会发现并……没……有……用…… ，想怎么输入就怎么输入。

难道这些码点不对吗？当然，这是 Unicode 标准提供的码点表，不可能不对，那一定是判断时出了问题，我们查看一下输入 Emoji 时输入的是什么字符。

Emoji 的表现形式

通过断点，可以看到，输入一个微笑的 Emoji，其内容实际上是 '\uD83D''\uDE03' ，好像离码点 0x1F603 有点远。实际上，这个输入的编码是特殊的。

Unicode 中计划使用 17 个平面，常用的编码都在第 0 平面中（关于 Unicode 更多知识可以从参考资料进行了解），而在第 0 平面中，有一个特殊的代理区域，不表示任何字符，只用于指向第 1 到第 16 个平面中的字符，这段区域是：D800—DFFF.。其中 0xD800—0xDBFF 是前导代理(lead surrogates)，0xDC00—0xDFFF 是后尾代理(trail surrogates)。

它们的代理关系如下图所示：

因此具体的公式是：0x10000 + (前导-0xD800) * 0x400 + (后导-0xDC00) = utf-16编码

我们将微笑 Emoji 的字符串代入计算，结果是：0x10000+(0xD83D - 0xD800)*0x400 + (0xDE03-0xDC00) = 0x1F603 ，与码点正好对应上了！

因此，我们需要修改一下判断方法：

public static boolean isContainEmoji(String s) {
    char[] chars = s.toCharArray();
    int charsLength = chars.length;

    for (int i = 0; i < charsLength; i++) {
        char c = chars[i];
        char realChar = c;
        if (c >= 0xD800 && c <= 0xDBFF && ++i < charsLength) {
            char nextChar = chars[i];
            realChar = (char) (0x10000 + (c - 0xD800) * 0x400 + (nextChar - 0xDC00));
        }
        if (emojiSignatureSet.contains(realChar)) {
            return true;
        }
    }
    return false;
}

修改过后，使用不同的输入法都尝试一下输入 Emoji，果然，全都被过滤了，无法输入。搞定收工！给自己输入一个666!

嗯？我的 666 呢？这时候，你会发现，无法输入：数字、英文、@、# 等符号。果然没这么简单！

码点表中的奸细

显然，被多过滤掉了字符一定是因为码点集合太多了。仔细查看，终于发现了问题所在。

数字

0023 ; Emoji_Component # 1.1 [1] (#?) number sign
002A ; Emoji_Component # 1.1 [1] (*?) asterisk
0030..0039 ; Emoji_Component # 1.1 [10] (0?..9?) digit zero..digit nine

这些 # * 0~9 这些字符本身是正常的字符，但是它们搭配其他的特征码则变成了 Emoji。

因此，这些字符不能加入特征集合中。数字的问题解决了，还有字母的问题。

字母

根据 Tags (Unicode block) 和 emoji-sequences.txt

E0020 ~ E007F 的使用仅有

1F3F4 E0067 E0062 E0065 E006E E0067 E007F; Emoji_Tag_Sequence; England # 7.0 [1] (??)
1F3F4 E0067 E0062 E0073 E0063 E0074 E007F; Emoji_Tag_Sequence; Scotland # 7.0 [1] (??)
1F3F4 E0067 E0062 E0077 E006C E0073 E007F; Emoji_Tag_Sequence; Wales # 7.0 [1] (??)

而这个范围覆盖了 a~z 及一些符号，如果添加了反而会误判，或者仅添加 E007F 作为 Emoji 特征码

去掉这些奸细，终于可以愉快地输入了……吗？并没有。

还会发现不能输入中文的一些标点符号。再看看还有什么内容没必要添加的。

保留区域

在 emoji-data 中可以看到有一部分码点标记为 reserved，即当前保留着不用，例如<reserved-1F02C>..<reserved-1F02F>，那么把这些保留区域去除是否就可以了呢，经过实验，去除之后确实就没问题了，特别是最后一行，保留区域1FA6E..1FFFD个数达 1424 个，去除这个就可以正常输入中文字符了。

Emoji 的过滤

有了上面提到的特征码点集合，过滤和识别其实是一样的。

public static String filterEmoji(String s) {
    StringBuilder sb = new StringBuilder();
    char[] chars = s.toCharArray();
    int charsLength = chars.length;

    for (int i = 0; i < charsLength; i++) {
        char c = chars[i];
        char realChar = c;
        if (c >= 0xD800 && c <= 0xDBFF && ++i < charsLength) {
            char nextChar = chars[i];
            realChar = (char) (0x10000 + (c - 0xD800) * 0x400 + (nextChar - 0xDC00));
        }
        if (!emojiSignatureSet.contains(realChar)) {
            sb.append(c);
        }
    }
    return sb.toString();
}

参考链接

通过一番探索，虽然对于字符编码相关的知识还不是特别清晰，但至少比以前了解得更多了。在实现过程中参考了诸多的网上的资料，如果我写得你觉得看得不甚了了，可以看看下面这些资料。

字符编码的奥秘utf-8, Unicode：Unicode 多平面的理解
iPhone emoji问题牵出的Unicode代理区的思考：代理区的转化识别
Android 准确过滤(禁止) Emoji表情：实现方案的参考来源
Emoji
Unicode? Emoji Charts v11.0
Full Emoji List, v11.0
Unicode Emoji Data Files ：对数据文件的解读可看
- Unicode? Technical Standard #51 UNICODE EMOJI
- Emoji，没想到你是这样的...
Tags (Unicode block)
Emoji与unicode特殊字符的处理
百行代码集成Emoji并转成iOS、后台可识别字符

附：完整代码

以下是完整的代码，大家可以自行测试是否有问题，发现问题的话也麻烦反馈给我。

public class EmojiUtils {

    private static final String TAG = EmojiUtils.class.getSimpleName();
    private static Set<Character> emojiSignatureSet = new HashSet<>(1801);

    private EmojiUtils() {}

    public static boolean isContainEmoji(String s) {
        char[] chars = s.toCharArray();
        int charsLength = chars.length;
        char currentChar;
        char realChar;
        for (int i = 0; i < charsLength; i++) {
            currentChar = chars[i];
            realChar = currentChar;
            if (currentChar >= 0xD800 && currentChar <= 0xDBFF && (i + 1) < charsLength) {
                char nextChar = chars[++i];
                realChar = (char) (0x10000 + (currentChar - 0xD800) * 0x400 + (nextChar - 0xDC00));
            }
            if (emojiSignatureSet.contains(realChar)) {
                return true;
            }
        }
        return false;
    }

    public static String filterEmoji(String s) {
        StringBuilder sb = new StringBuilder();
        char[] chars = s.toCharArray();
        int charsLength = chars.length;
        char currentChar;
        char realChar;
        for (int i = 0; i < charsLength; i++) {
            currentChar = chars[i];
            realChar = currentChar;
            if (currentChar >= 0xD800 && currentChar <= 0xDBFF && (i + 1) < charsLength) {
                char nextChar = chars[++i];
                realChar = (char) (0x10000 + (currentChar - 0xD800) * 0x400 + (nextChar - 0xDC00));
            }
            if (!emojiSignatureSet.contains(realChar)) {
                sb.append(currentChar);
            }
        }
        return sb.toString();
    }

    private static void addUnicodeToSet(Set<Character> set, int code) {
        if (set == null) {
            return;
        }
        set.add((char) code);
    }

    private static void addUnicodeToSet(Set<Character> set, int codeStart, int codeEnd) {
        if (set == null) {
            return;
        }
        for (int i = codeStart; i <= codeEnd; i++) {
            addUnicodeToSet(set, i);
        }
    }

    static {
        Log.d(TAG, "init start:" + System.currentTimeMillis());
        addUnicodeToSet(emojiSignatureSet, 0x007F);
        addUnicodeToSet(emojiSignatureSet, 0x00A9);
        addUnicodeToSet(emojiSignatureSet, 0x00AE);
        addUnicodeToSet(emojiSignatureSet, 0x200D);
        addUnicodeToSet(emojiSignatureSet, 0x203C);
        addUnicodeToSet(emojiSignatureSet, 0x2049);
        addUnicodeToSet(emojiSignatureSet, 0x20E3);
        addUnicodeToSet(emojiSignatureSet, 0x2122);
        addUnicodeToSet(emojiSignatureSet, 0x2139);
        addUnicodeToSet(emojiSignatureSet, 0x2194, 0x2199);
        addUnicodeToSet(emojiSignatureSet, 0x21A9, 0x21AA);
        addUnicodeToSet(emojiSignatureSet, 0x231A, 0x231B);
        addUnicodeToSet(emojiSignatureSet, 0x2328);
        addUnicodeToSet(emojiSignatureSet, 0x2388);
        addUnicodeToSet(emojiSignatureSet, 0x23CF);
        addUnicodeToSet(emojiSignatureSet, 0x23E9, 0x23F3);
        addUnicodeToSet(emojiSignatureSet, 0x23F8, 0x23FA);
        addUnicodeToSet(emojiSignatureSet, 0x24C2);
        addUnicodeToSet(emojiSignatureSet, 0x25AA, 0x25AB);
        addUnicodeToSet(emojiSignatureSet, 0x25B6);
        addUnicodeToSet(emojiSignatureSet, 0x25C0);
        addUnicodeToSet(emojiSignatureSet, 0x25FB, 0x25FE);
        addUnicodeToSet(emojiSignatureSet, 0x2600, 0x2605);
        addUnicodeToSet(emojiSignatureSet, 0x2607, 0x2612);
        addUnicodeToSet(emojiSignatureSet, 0x2614, 0x2685);
        addUnicodeToSet(emojiSignatureSet, 0x2690, 0x2705);
        addUnicodeToSet(emojiSignatureSet, 0x2708, 0x2712);
        addUnicodeToSet(emojiSignatureSet, 0x2714);
        addUnicodeToSet(emojiSignatureSet, 0x2716);
        addUnicodeToSet(emojiSignatureSet, 0x271D);
        addUnicodeToSet(emojiSignatureSet, 0x2721);
        addUnicodeToSet(emojiSignatureSet, 0x2728);
        addUnicodeToSet(emojiSignatureSet, 0x2733, 0x2734);
        addUnicodeToSet(emojiSignatureSet, 0x2744);
        addUnicodeToSet(emojiSignatureSet, 0x2747);
        addUnicodeToSet(emojiSignatureSet, 0x274C);
        addUnicodeToSet(emojiSignatureSet, 0x274E);
        addUnicodeToSet(emojiSignatureSet, 0x2753, 0x2755);
        addUnicodeToSet(emojiSignatureSet, 0x2757);
        addUnicodeToSet(emojiSignatureSet, 0x2763, 0x2767);
        addUnicodeToSet(emojiSignatureSet, 0x2795, 0x2797);
        addUnicodeToSet(emojiSignatureSet, 0x27A1);
        addUnicodeToSet(emojiSignatureSet, 0x27B0);
        addUnicodeToSet(emojiSignatureSet, 0x27BF);
        addUnicodeToSet(emojiSignatureSet, 0x2934, 0x2935);
        addUnicodeToSet(emojiSignatureSet, 0x2B05, 0x2B07);
        addUnicodeToSet(emojiSignatureSet, 0x2B1B, 0x2B1C);
        addUnicodeToSet(emojiSignatureSet, 0x2B50);
        addUnicodeToSet(emojiSignatureSet, 0x2B55);
        addUnicodeToSet(emojiSignatureSet, 0x3030);
        addUnicodeToSet(emojiSignatureSet, 0x303D);
        addUnicodeToSet(emojiSignatureSet, 0x3297);
        addUnicodeToSet(emojiSignatureSet, 0x3299);
        addUnicodeToSet(emojiSignatureSet, 0xF000, 0xF02B);
        addUnicodeToSet(emojiSignatureSet, 0xF030, 0xF093);
        addUnicodeToSet(emojiSignatureSet, 0xF0A0, 0xF0AE);
        addUnicodeToSet(emojiSignatureSet, 0xF0B1, 0xF0BF);
        addUnicodeToSet(emojiSignatureSet, 0xF0C1, 0xF0CF);
        addUnicodeToSet(emojiSignatureSet, 0xF0D1, 0xF0F5);
        addUnicodeToSet(emojiSignatureSet, 0xF12F);
        addUnicodeToSet(emojiSignatureSet, 0xF170, 0xF171);
        addUnicodeToSet(emojiSignatureSet, 0xF17E, 0xF17F);
        addUnicodeToSet(emojiSignatureSet, 0xF18E);
        addUnicodeToSet(emojiSignatureSet, 0xF191, 0xF19A);
        addUnicodeToSet(emojiSignatureSet, 0xF1E6, 0xF1FF);
        addUnicodeToSet(emojiSignatureSet, 0xF201, 0xF202);
        addUnicodeToSet(emojiSignatureSet, 0xF21A);
        addUnicodeToSet(emojiSignatureSet, 0xF22F);
        addUnicodeToSet(emojiSignatureSet, 0xF232, 0xF23A);
        addUnicodeToSet(emojiSignatureSet, 0xF250, 0xF251);
        addUnicodeToSet(emojiSignatureSet, 0xF260, 0xF265);
        addUnicodeToSet(emojiSignatureSet, 0xF300, 0xF53D);
        addUnicodeToSet(emojiSignatureSet, 0xF546, 0xF64F);
        addUnicodeToSet(emojiSignatureSet, 0xF680, 0xF6D4);
        addUnicodeToSet(emojiSignatureSet, 0xF6E0, 0xF6EC);
        addUnicodeToSet(emojiSignatureSet, 0xF6F0, 0xF6F9);
        addUnicodeToSet(emojiSignatureSet, 0xF7D5, 0xF7D8);
        addUnicodeToSet(emojiSignatureSet, 0xF910, 0xF93A);
        addUnicodeToSet(emojiSignatureSet, 0xF93C, 0xF93E);
        addUnicodeToSet(emojiSignatureSet, 0xF940, 0xF945);
        addUnicodeToSet(emojiSignatureSet, 0xF947, 0xF970);
        addUnicodeToSet(emojiSignatureSet, 0xF973, 0xF976);
        addUnicodeToSet(emojiSignatureSet, 0xF97A);
        addUnicodeToSet(emojiSignatureSet, 0xF97C, 0xF9A2);
        addUnicodeToSet(emojiSignatureSet, 0xF9B0, 0xF9B9);
        addUnicodeToSet(emojiSignatureSet, 0xF9C0, 0xF9C2);
        addUnicodeToSet(emojiSignatureSet, 0xF9D0, 0xF9FF);
        addUnicodeToSet(emojiSignatureSet, 0xFA60, 0xFA6D);
        addUnicodeToSet(emojiSignatureSet, 0xFE0E, 0xFE0F);
        Log.d(TAG, "init end  :" + System.currentTimeMillis());
        Log.d(TAG, "set size: " + emojiSignatureSet.size());
    }
}

最后编辑于：2018.07.19 15:55:07

?著作权归作者所有,转载或内容合作请联系作者

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,029评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,238评论 3赞 388
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事?！?“怎么了？”我有些...
开封第一讲书人阅读 159,576评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,214评论 1赞 287
?港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,324评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,392评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,416评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,196评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,631评论 1赞 306
?护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,919评论 2赞 328
?白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,090评论 1赞 342
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,767评论 4赞 337
?日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,410评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,090评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,328评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,952评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,979评论 2赞 351

传奇手游全部平台_三端传奇开服网址大全下载_三端传奇版本下载教程

Emoji 识别与过滤

Emoji 识别与过滤

Emoji 是什么

Emoji 的识别

Emoji 所有的码点

初试 Emoji 识别

Emoji 的表现形式

码点表中的奸细

数字

字母

保留区域

Emoji 的过滤

参考链接

附：完整代码

推荐阅读更多精彩内容