用python导入原始数据集

创建时间：2017-09-11 投稿人：浏览次数：296

def loadDataSet(fileName):      
    numFeat = len(open(fileName).readline().split("	"))    # 计算有多少列
    dataMat = []
    labelMat = []
    fr = open(fileName)
    for line in fr.readlines():        #  遍历原始数据集每一行
        lineArr =[]
        curLine = line.strip().split("	")      # 是一列表类型
        for i in range(numFeat-1):     # numFeat - 1的原因：因为原始数据的最后一列是类别，不是属性数据
            lineArr.append(float(curLine[i]))  # 一个一个传进lineArr列表向量
        dataMat.append(lineArr)     # 再传进dataMat列表向量
        labelMat.append(float(curLine[-1]))  # 写进标签列表
    return dataMat, labelMat

注意事项：

（1）该函数块主要用于从原始数据文件（.txt,.data等）读取数据，用于机器学习算法的训练和测试应用

（2）labelMat是一列表，表示标签/类别

（3）dataMat也是列表类型

（4）当原始数据文件间的数据是空格隔开，则使用.split("	")

                       若是逗号隔开，则使用.split(",")

声明：该文观点仅代表作者本人，牛骨文系教育信息发布平台，牛骨文仅提供信息存储空间服务。

上一篇： html标签不解析直接输出代码问题处理
下一篇： c语言中如何返回一个数组函数

热门文章: CTF writeup 2_南邮网络攻防训...; SSM框架——详细整合教程（...; Linux Shell脚本编程－－curl命...; HttpClient使用详解; Java面试题全集（上）; JAVA设计模式之单例模式; java.lang.OutOfMemoryError: PermGen ...; TCP协议中的三次握手和四次...; form表单的两种提交方式，su...; String,StringBuffer与StringBuilder...

最新文章: Java之品优购课程讲义_day20（7）; 剑指 Offer - 8：跳台阶; Netty权威指南_札记02_NIO编程; mysql时间属性之时间戳和datetime之...; 虚拟现实或许可以拯救古埃及的“...; spring cloud服务注册中心eureka---集群...; Java SE 第六章; HTTP请求+数据库; HIDL学习笔记之HIDL C++（第二天）; ubuntu系统下指定tomcat运行时为JDK1.8...