牛骨文教育服务平台(让学习变的简单)
博文笔记

php 结合缓冲区读取excel数据并批量导入mysql

创建时间:2016-04-20 投稿人: 浏览次数:9765

在工作中,很多时候需要把excel中的数据读取出来,导入到mysql中,以前的代码,都是通过 Spreadsheet_Excel_Reader插件直接取出来,进行for循环,组合成一个长的sql语句,这样进行插入,但是这样的导入有不足之处就是如果导入的数据量庞大,那么会造成长语句超出sql最大限制。并且执行时间超长,会超出php脚本执行时间下面贴一段原先的代码。

require_once "Excel/reader.php";//调用Reader,引用地址可以任意,正确即可
$data = new Spreadsheet_Excel_Reader(); //创建 Reader
$data->setOutputEncoding("utf-8");//设置文本输出编码
$data->read($uploadfile);//读取Excel文件
$insert = "";
for ($i = 0; $i < $data->sheets[0]["numRows"]; $i++) {
$insert .= "("".$data->sheets[0]["cells"][$i][1]."","".$data->sheets[0]["cells"][$i][3]."-".$data->sheets[0]["cells"][$i][4]."","".$data->sheets[0]["cells"][$i][7]."--".$data->sheets[0]["cells"][$i][6]."",1,"".$data->sheets[0]["cells"][$i][2]."","".$datetime."","".$data->sheets[0]["cells"][$i][8]."","".$data->sheets[0]["cells"][$i][5]."","".$data->sheets[0]["cells"][$i][8].""),";
}

用过这款插件的同学应该知道,$data->sheets[0]["numRows"]即php读取excel中的记录数,而$data->sheets[0]["cells"]为php读取出来的数据,这样调取其实是可以的,但是前提是数据量不大。

数据量稍微大一点就提示以下错误,这是因为发送的SQL语句太长,以致超过了max_allowed_packet的大小,这种情况,你只要修改my.cnf,加大max_allowed_packet的值即可。但是这种虽然可以解决大sql插入问题,但是程序运行的时间也响应的增加了,比如:读取一个5000记录数的excel并插入,居然使用了超过20秒时间。这意味着如果采用此种方法,还需要设置set_time_limit(0);


但是大多数的情况下,不可能频繁的使用小excel文件进行导入,也太繁琐,通过php的前期处理,将大型的sql语句拆分为n多符合条件的sql语句,配合缓冲区,这样做的好处就是:不用考虑因为sql语句太长而造成执行时间超出php限定时间,以及语句太长造成mysql报错。


$len = $data->sheets[0]["numRows"];
		$datacells = $data->sheets[0]["cells"];
		unset($data);
		//以2000条为分界
		$lun = $len / 2000;
		// echo $len."<br />";
		// echo $lun."<br />";
		$num = intval($len % 2000);
		if($num == 0){
			$lun = $lun;
		}else{
			if($lun>0){
				$lun = floor($lun);
			}else{
				$lun = 0;
			}
		}
		// echo $lun."<br />";
		// echo $num;exit;
		set_time_limit(0);
		//插入一条excel记录
		mysql_query("INSERT INTO `excel` (`id`, `oldname`, `newname`, `size`, `time`) VALUES (NULL, "$file", "$uploadfile", "$len","$exceltime");");  
		$insert_id=mysql_insert_id();
		if($lun >= 1){ 
			for($j = 0;$j < $lun;$j++){
				ob_end_clean();
				$insert = "";
				for($i = 0;$i <= 2000;$i++){
					$key=$i+$j*2000;
					if (strlen($datacells[$key][5])>0){
						$datetime=$datacells[$key][5];
					}else{
						$datetime=date("Y-m-d H:i:s");
					}
					// if($datacells[$key][3]){
						$insert .= "("".$datacells[$key][1]."","".$datacells[$key][3]."-".$datacells[$key][4]."","".$datacells[$key][7]."--".$datacells[$key][6]."",1,"".$datacells[$key][2]."","".$datetime."","".$datacells[$key][8]."","".$datacells[$key][5]."","".$datacells[$key][8]."","".$insert_id.""),"; 
					// }
				}
				$insert=trim($insert,",");
				$sql = "INSERT INTO message_bak (tel, addr, y_title, bs, wz, timeadd,ip,uid,telzt,excel_id) VALUES".$insert;
                               //echo $sql;
                                $res != mysql_query($sql);
				if (!$res){
					$msg="SQL语句执行错误".$sql;
				}	
				flush();
			}
		}
                if($lun > 0 && $num > 0){
                    unset($sql);
                    insert = "";
                    for($i = 0;$i <= $num;$i++){
                       $key=($lun-1)*2000+$i;
                       if (strlen($datacells[$key][5])>0){
                          $datetime=$datacells[$key][5];
                       }else{
                          $datetime=date("Y-m-d H:i:s");
                       }
                       $insert .= "("".$datacells[$key][1]."","".$datacells[$key][3]."-".$datacells[$key][4]."","".$datacells[$key][7]."--".$datacells[$key][6]."",1,"".$datacells[$key][2]."","".$datetime."","".$datacells[$key][8]."","".$datacells[$key][5]."","".$datacells[$key][8]."","".$insert_id.""),"; 
                    }
                    $insert=trim($insert,",");
                    $sql = "INSERT INTO message_bak (tel, addr, y_title, bs, wz, timeadd,ip,uid,telzt,excel_id) VALUES".$insert;
                    $res = mysql_query($sql);

                }elseif($num > 0){
                    unset($sql);
                    insert = "";
                    for($i = 0;$i <= $num;$i++){
                       $key=$i;
                       if (strlen($datacells[$key][5])>0){
                          $datetime=$datacells[$key][5];
                       }else{
                          $datetime=date("Y-m-d H:i:s");
                       }
                       $insert .= "("".$datacells[$key][1]."","".$datacells[$key][3]."-".$datacells[$key][4]."","".$datacells[$key][7]."--".$datacells[$key][6]."",1,"".$datacells[$key][2]."","".$datetime."","".$datacells[$key][8]."","".$datacells[$key][5]."","".$datacells[$key][8]."","".$insert_id.""),"; 
                    }
                    $insert=trim($insert,",");
                    $sql = "INSERT INTO message_bak (tel, addr, y_title, bs, wz, timeadd,ip,uid,telzt,excel_id) VALUES".$insert;
                    $res = mysql_query($sql);
                }
这里将$data中的数据提出并且销毁$data了。目的是要代码简便点,不过实际环境中无需如此,目前通过上面的程序,导入一个10000条的excel文件,仅需要

6秒。当然如果取消对变量的操作,再优化优化程序(缓冲区的使用是为了实时显示出来每次执行的sql语句,如果不需要这种做法,当然可以放弃使用缓冲区),与excel类,速度应该还会更快一点,以下为程序执行时间对比:


 5.7213270664215   单独使用excel类读取数据花费的时间

 6.3743650913239   使用excel类读取数据以及插入数据库所使用的时间

    由此可以看出,大部分时间是花费在了读取excel上面,使用缓冲区插入msyql还是比较可取的,有个小提示,每一次使用缓冲区之后一定要进行 刷新操作

以上只是我的测试代码,具体的sql需要根据各位同学们的需求进行改写,而且上面的代码增加了一个关于导入数据的字典表,即实时导入数据的操作记录,不需要的也可以删除


声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。