暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

随机森林回归(二)

云南高校数据化运营管理工程中心 2019-05-31
338
 

目录






1.从sklearn中提取模块

2.算法思路

3.代码实现






编辑:

校对:

版本:

WangXin

WangXin

python3


从sklearn中提取模块


    本小节中还是使用sklearn包中的二元决策树函数DecisionTreeRegressor作为主要的分析函数。另外还需要说明两个随机函数:

random.choice(range(n)):在range形成的列表里面随机抽取一个

random.sample(range(n),m):在range形成的列表里面无重复的随机抽取m个数


算法思路


该算法的核心就是如何实现以下两个步骤,过程如下:

 (1)有放回的随机抽取样本数据

      a)定义一个需要抽取的数据的索引列表

      b)使用随机函数随机生成和数据集同样大小的数值填充到索引列表中

      c)对数据索引列表排序

      d)抽取包含在索引列表中的数据重新组成样本集,并抽取对应的标签值组成标签集

 (2)无放回的随机抽取属性列

      a)定义一个需要抽取的属性的索引列表

      b)使用随机函数随机生成和属性数量同样大小的数值填充到索引列表中

      c)对属性索引列表排序

      d)抽取包含在属性索引列表中的属性重新组成属性集

 (3)从新的样本集中按照新的属性集抽取样本数据集及标签值,然后进行分析


代码实现


  1. import numpy as np

  2. import matplotlib.pyplot as plt

  3. import os

  4. from sklearn.tree import DecisionTreeRegressor

  5. import random


  6. ##运行脚本所在目录

  7. base_dir=os.getcwd()

  8. data=np.loadtxt(base_dir+r"\mydata.txt",delimiter=";")


  9. dataLen = len(data) ##矩阵的数

  10. dataWid = len(data[0]) ##矩阵的列数



  11. #第一步:划分训练集和测试集



  12. ##测试集大小:这里选择30%作为测试集,70%作为训练集

  13. nSample = int(dataLen * 0.30)


  14. ##在0dataLen直接随机生成nSample个点

  15. idxTest = random.sample(range(dataLen), nSample)

  16. idxTest.sort()


  17. #定义训练集和测试集标签

  18. xTrain = [] #训练集

  19. xTest = [] #测试集

  20. yTrain = [] #训练集标签

  21. yTest = [] #测试集标签


  22. ##划分数据:

  23. for i in range(dataLen):

  24. row = data[i]

  25. if i not in idxTest:

  26. xTrain.append(row[0:dataWid-1])

  27. yTrain.append(row[-1])

  28. else :

  29. xTest.append(row[0:dataWid-1])

  30. yTest.append(row[-1])




  31. #第二步:使用随机森林算法训练数据


  32. modelList = [] ##决策树的个数

  33. predList = [] ##预测值列表

  34. mse = [] ##均方差列表

  35. allPredictions = [] ##预测值累加和列表

  36. numTreesMax = 100 ##最大树数目

  37. treeDepth = 12 ##每个树的深度

  38. nAttr = 4 ##随机抽取的属性数目,建议值:回归问题1/3




  39. for iTrees in range(numTreesMax):

  40. ##定义决策树

  41. modelList.append(DecisionTreeRegressor(max_depth=treeDepth))


  42. ##随机抽取的样本数据集和标签集

  43. xList = []

  44. yList = []


  45. ##进行随机抽取时样本数据集的索引列表和属性索引列表

  46. idxList = []

  47. attList = []


  48. ##构造随机样本数据集的索引列表

  49. for idx in range(len(xTrain)):

  50. idxList.append(random.choice(range(len(xTrain))))

  51. idxList.sort() ##记得排序


  52. ##构造随机样本数据集

  53. for idx in idxList:

  54. xList.append(xTrain[idx])

  55. yList.append(yTrain[idx])


  56. ##构造随机属性列表:dataWid-1,是因为最后一列是标签值

  57. attList = random.sample(range(dataWid - 1), nAttr)

  58. attList.sort() ##记得排序


  59. ##构造测试数据集

  60. xTrain1 = []

  61. yTrain1 = []


  62. for i in range(len(xList)):

  63. ##只读取抽取到的列

  64. row = [xList[i][j] for j in attList]

  65. xTrain1.append(row)

  66. ##yList每行只有一个标签值

  67. yTrain1.append(yList[i])


  68. ##开始训练

  69. modelList[-1].fit(xTrain1, yTrain1)


  70. ##获取预测值 ---测试集需要抽取相同的列进行预测

  71. xTest1 = []

  72. for i in range(len(xTest)):

  73. ##只读取抽取到的列

  74. row = [xTest[i][j] for j in attList]

  75. xTest1.append(row)


  76. latestOutSamplePrediction = modelList[-1].predict(xTest1)

  77. ##预测值添加到列表

  78. predList.append(list(latestOutSamplePrediction))

复制

学而不思则罔


根据算法思路设计代码实现随机森林算法功能

理解编程语言,探索数据奥秘

每日练习|干货分享|新闻资讯|公益平台。

每天学习一点点,你将会见到全新的自己。

长按识别二维码关注


文章转载自云南高校数据化运营管理工程中心,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论