SparkSQL写数据到Hive的动态分区表

创建时间：2017-05-23 投稿人：浏览次数：3077

object HiveTableHelper extends Logging {

  def hiveTableInit(sc: SparkContext): HiveContext = {
    val sqlContext = new HiveContext(sc)
    sqlContext
  }

  def writePartitionTable(HCtx: HiveContext, inputRdd: RDD[Row], tabName: String, colNames: String): Unit = {
    val schema = StructType(
      colNames.split(" ").map(fieldName => StructField(fieldName, StringType, true))
    )
    val table = colNames.replace(" dt", "").split(" ").map(name => name + " String").toList.toString().replace("List(", "").replace(")", "")
    val df = HCtx.createDataFrame(inputRdd, schema)
    //df.show(5)
    //logInfo("----------------------------------begin write table-----------------------------------")
    val temptb = "temp" + tabName
    //HCtx.sql("drop table if exists " + tabName)
    df.registerTempTable(temptb)
    HCtx.sql("CREATE EXTERNAL TABLE if not exists " + tabName + " (" + table + ") PARTITIONED BY (`dt` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY "|" STORED AS INPUTFORMAT  "org.apache.hadoop.mapred.SequenceFileInputFormat" OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat" location "/spdbccc/data/dest/SPSJNEW/"+tabName+""")
    HCtx.sql("set hive.exec.dynamic.partition.mode = nonstrict")
    HCtx.sql("insert overwrite table " + tabName + " partition(`dt`)" + " select * from " + temptb)
  }
}

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

上一篇： ROS(indigo) turtlebot2 + android一些有趣应用
下一篇： linux问题排查 - 高cpu占用率的进程和线程

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...