简单线性回归
前言
Day 2.jpgStep 1:数据预处理
即[1%]中的内容
- 导入相关库
- 导入数据集
- 检查缺失函数
- 划分数据集
- 特征缩放
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
dataset = pd.read_csv('studentscores.csv')
X = dataset.iloc[ : , : 1 ].values
Y = dataset.iloc[ : , 1 ].values
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 0.25, random_state = 0)
Step 2:通过训练集训练简单线性回归模型
这里我们从sklearn.linear_model
中导入LinearRegression类,创建一个实例regressor,使用fit函数对数据进行训练。
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)
Step3: 预测结果
训练结束之后,来测试一下训练成果,使用predict函数,把结果存在Y_pred向量中。
Y_pred = regressor.predict(X_test)
Step4: 可视化
人类都是视觉动物,让我们把训练集结果和测试集结果用matplotlib.pyplot
库生成散点图,查看我们的模型预测效果。
#可视化训练集
plt.scatter(X_train , Y_train, color = 'red')
plt.plot(X_train , regressor.predict(X_train), color ='blue')
plt.show()
#可视化测试集
plt.scatter(X_test , Y_test, color = 'red')
plt.plot(X_test , regressor.predict(X_test), color ='blue')
plt.show()