热门搜索 :
考研考公
您的当前位置:首页正文

【2%】100小时机器学习——简单线性回归

来源:东饰资讯网

简单线性回归

前言

Day 2.jpg

Step 1:数据预处理

即[1%]中的内容

  • 导入相关库
  • 导入数据集
  • 检查缺失函数
  • 划分数据集
  • 特征缩放
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

dataset = pd.read_csv('studentscores.csv')
X = dataset.iloc[ : ,   : 1 ].values
Y = dataset.iloc[ : , 1 ].values

from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 0.25, random_state = 0) 

Step 2:通过训练集训练简单线性回归模型

这里我们从sklearn.linear_model中导入LinearRegression类,创建一个实例regressor,使用fit函数对数据进行训练。

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)

Step3: 预测结果

训练结束之后,来测试一下训练成果,使用predict函数,把结果存在Y_pred向量中。

Y_pred = regressor.predict(X_test)

Step4: 可视化

人类都是视觉动物,让我们把训练集结果和测试集结果用matplotlib.pyplot库生成散点图,查看我们的模型预测效果。

#可视化训练集
plt.scatter(X_train , Y_train, color = 'red')
plt.plot(X_train , regressor.predict(X_train), color ='blue')
plt.show()
#可视化测试集
plt.scatter(X_test , Y_test, color = 'red')
plt.plot(X_test , regressor.predict(X_test), color ='blue')
plt.show()
Top