牛骨文教育服务平台(让学习变的简单)
博文笔记

微信公众号开发--微信昵称中含有emoji字符串处理

创建时间:2017-12-05 投稿人: 浏览次数:704

最近在做一个基于微信公众号开发的微店商城项目,本人是java后台。需要存储从公众号进入我们商城的用户的微信昵称,由于Android和ios系统中存在emoji这种特殊字符,导致我从微信接口中获取到的微信昵称中如果含有emoji字符,插入数据库就会报错(mysql数据库)。

报错信息:Incorrect string value: "xF0x9FxA4x97 3..." for column "nick_name" at row 1

百度了解知道:emoji表情符采用Unicode 6标准,采用4个byte字节存储一个emoji表情符,而我们的mysql数据库采用UTF-8编码格式时,采用3个byte字节存储一个字符,这样插入数据库就会报错。好在mysql5.5.3之后新增了一个utf8mb4字符集,专门用来兼容4字节的Unicode字符。

解决办法:
一、如果非得存储emoji表情。mysql5.5.3以下的升级数据库,本来就是5.5以上的直接修改字符集和排序规则,注意一定要同时把排序规则也一起修改了。 1.修改数据的字符集和排序规则,如下图: 2.修改表中该字段的字符集和排序规则 3.重启数据库,再次插入就不会报错。emoji在数据库中还是无法正常显示。
二、直接将emoji表情过滤,我还是觉得这种办法方便,毕竟重装数据库对业务有很大的影响,特别是该数据库中有别的线上项目的数据时根本不允许重装。
/**
* @Title:emoji特殊处理
* @author:yanbing
* @date:2017-12-05 10:15
 */
public class EmojiStringUtils {
	/**
	* @Title:判断是否存在特殊字符串
	* @param
	* @author:yanbing
	* @date:2017-12-05 10:14
	 */
    public static boolean hasEmoji(String content){
        Pattern pattern = Pattern.compile("[ud83cudc00-ud83cudfff]|[ud83dudc00-ud83dudfff]|[u2600-u27ff]");
        Matcher matcher = pattern.matcher(content);
        if(matcher .find()){
            return true;    
        }
            return false;
    }
    /**
    * @Title:替换字符串中的emoji字符
    * @param
    * @author:yanbing
    * @date:2017-12-05 10:17
     */
    public static String replaceEmoji(String str){
    	if(!hasEmoji(str)){
    		return str;
    	}else{
    		str=str.replaceAll("[ud83cudc00-ud83cudfff]|[ud83dudc00-ud83dudfff]|[u2600-u27ff]", " ");
    		return str;
    	}
    	
    }
}


附注:emoji表情符的编码表:http://punchdrunker.github.io/iOSEmoji/table_html/flower.html2017

2017/12/6 14:17后记:

本人在升级数据库后(mysql5.6),按照上述方法一操作,发现还是无法插入带有emoji标签的字符,检查我的数据库字符集发现:

执行:SHOW VARIABLES WHERE Variable_name LIKE "character\_set\_%" OR Variable_name LIKE "collation%";

出现:

character_set_client utf8
character_set_connection utf8
character_set_database utf8mb4
character_set_filesystem binary
character_set_results utf8
character_set_server latin1
character_set_system utf8
collation_connection utf8_general_ci
collation_database utf8mb4_general_ci
collation_server latin1_swedish_ci
发现character_set_server=latin1,百度知道latin1是ISO-8859-1的别名,也就是说安装数据库是选择的字符集是ISO-8859-1,导致我们新建数据库时服务器字符集 (character_set_server)默认为iso-8859-1,解决方法:
Linux版本的mysql安装后一般会有一个my.cnf文件,在etc目录下,cd /etc进入my.cnf目录,vim my.cnf进入编辑模式,在[mysqld]下面增加两行配置:character_set_server=utf8mb4  collation_server=utf8mb4_general_ci
重启数据库:service mysqld restart;
再次查询所有字符集都是utf8编码的,插入数据也成功 character_set_client utf8
character_set_connection utf8
character_set_database utf8mb4
character_set_filesystem binary
character_set_results utf8
character_set_server utf8mb4
character_set_system utf8
collation_connection utf8_general_ci
collation_database utf8mb4_general_ci
collation_server utf8mb4_general_ci



声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。