牛骨文教育服务平台(让学习变的简单)
博文笔记

无BOM的条件下C语言判断一个文件是否为UTF-8编码代码(windows,linux通用)

创建时间:2012-11-27 投稿人: 浏览次数:2000

大家知道判断一个文件编码如若有BOM位(方便编辑器识别是何种编码,在文件开头处加的标志位,我是这样理解BOM的,并且我们用一般的编辑器打开是看不到BOM位的,我们必须用能二进制编辑的编辑器打开才看得到BOM位),比如如果是UTF-8,如若有BOM位,其前3位分别是EF,BB,BF。

有BOM的情况下,我们只需判断关三个字节就可知该文件的编码方式(这是大多数情况),但如果该文件没有BOM呢(我们程序自己写的文件可能就没有BOM位),这时判断是不是UTF-8编码就要用UTF-8编码的特点来依次判断是不是UTF-8编码,以下是代码,自测通过。

如若看不懂代码,可以搜下UTF-8编码是怎么编码的。

//判断字符串是否为UTF-8,str是指向需要判断是否为UTF-8内容的指针,如若是返回true,否则返回false.
bool contentIsUtf8(char *str)
{    
 int i = 0;    
 int size = strlen(str);      
 while(i < size)    
 {        
  int step = 0;        
  if((str[i] & 0x80) == 0x00)       
  {            
   step = 1;        
  }else if((str[i] & 0xe0) == 0xc0)        
  {            
   if(i + 1 >= size)
    return false;            
   if((str[i + 1] & 0xc0) != 0x80)
    return false;              
   step = 2;        
  }else if((str[i] & 0xf0) == 0xe0)        
  {            
   if(i + 2 >= size)
    return false;            
   if((str[i + 1] & 0xc0) != 0x80)
    return false;            
   if((str[i + 2] & 0xc0) != 0x80)
    return false;              
   step = 3;       
  }else 
  {            
   return false;        
  }         
  i += step;   
 }      
 if(i == size)
  return true;     
 return false;
}

声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。