牛骨文教育服务平台(让学习变的简单)
博文笔记

用python导入原始数据集

创建时间:2017-09-11 投稿人: 浏览次数:202
def loadDataSet(fileName):      
    numFeat = len(open(fileName).readline().split("	"))    # 计算有多少列
    dataMat = []
    labelMat = []
    fr = open(fileName)
    for line in fr.readlines():        #  遍历原始数据集每一行
        lineArr =[]
        curLine = line.strip().split("	")      # 是一列表类型
        for i in range(numFeat-1):     # numFeat - 1的原因:因为原始数据的最后一列是类别,不是属性数据
            lineArr.append(float(curLine[i]))  # 一个一个传进lineArr列表向量
        dataMat.append(lineArr)     # 再传进dataMat列表向量
        labelMat.append(float(curLine[-1]))  # 写进标签列表
    return dataMat, labelMat

注意事项:
(1)该函数块主要用于从原始数据文件(.txt,.data等)读取数据,用于机器学习算法的训练和测试应用
(2)labelMat是一列表,表示标签/类别
(3)dataMat也是列表类型
(4)当原始数据文件间的数据是空格隔开,则使用.split("	")
                       若是逗号隔开,则使用.split(",")

声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。