无BOM的条件下C语言判断一个文件是否为UTF-8编码代码（windows,linux通用）

创建时间：2012-11-27 投稿人：浏览次数：2018

大家知道判断一个文件编码如若有BOM位（方便编辑器识别是何种编码，在文件开头处加的标志位，我是这样理解BOM的，并且我们用一般的编辑器打开是看不到BOM位的，我们必须用能二进制编辑的编辑器打开才看得到BOM位），比如如果是UTF-8，如若有BOM位，其前3位分别是EF,BB,BF。

有BOM的情况下，我们只需判断关三个字节就可知该文件的编码方式（这是大多数情况），但如果该文件没有BOM呢（我们程序自己写的文件可能就没有BOM位），这时判断是不是UTF-8编码就要用UTF-8编码的特点来依次判断是不是UTF-8编码，以下是代码，自测通过。

如若看不懂代码，可以搜下UTF-8编码是怎么编码的。

//判断字符串是否为UTF-8，str是指向需要判断是否为UTF-8内容的指针，如若是返回true,否则返回false.
bool contentIsUtf8(char *str)
{
int i = 0;
int size = strlen(str);
while(i < size)
{
  int step = 0;
  if((str[i] & 0x80) == 0x00)
  {
   step = 1;
  }else if((str[i] & 0xe0) == 0xc0)
  {
   if(i + 1 >= size)
    return false;
   if((str[i + 1] & 0xc0) != 0x80)
    return false;
   step = 2;
  }else if((str[i] & 0xf0) == 0xe0)
  {
   if(i + 2 >= size)
    return false;
   if((str[i + 1] & 0xc0) != 0x80)
    return false;
   if((str[i + 2] & 0xc0) != 0x80)
    return false;
   step = 3;
  }else
  {
   return false;
  }
  i += step;
}
if(i == size)
  return true;
return false;
}

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

上一篇：一步步Cobol 400 上手自学入门教程01 - 基础概念
下一篇： js里面怎么动态的为对象添加属性

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...