学习材料来源:《应用stata做统计分析》 劳伦斯·汉密尔顿
一、数据管理
感觉把原始数据处理成能够用来做回归的数据集是最难也最重要的一步了,之后只要按部就班回归就行。
(三)创建和替代变量:generate和replace
此时的等号用=,一个等号。
generate gap = flife - mlife
(1)format gap %4.1f
三种常见的数字显示格式:
%w/dg 一般(general)数字格式,其中w定义了数字显示宽度(占几列),而d定义了小数部分至少要显示的位数。为了以最佳但是可变方式来显示,指数计数法(比如,1.00e+7,表示1.00×10^7或1000万)和小数点位置移动都会按需要自动完成。
%w/df 固定(fixed)数字格式。其中w定义了数字显示总宽度(占几列),而d定义了小数部分的固定显示位数。
%w/de 指数(exponential)数字格式,其中w定义了数字显示总宽度(占几列),而d定义了小数部分的固定显示位数。
(2)创建分类变量
加拿大数据中包含几个不同类型的观测案例:2个领土地域,10个省,还有1个整个国家。
generate type=1
replace type=2 if place =="Yukon" | place=="Northwest Territories"
replace type=3 if place=="Canada"
label variabla type "Province, territory or nation"
label values type type1b1 (这些标签与哪个变量相联系)
label define type1b1 1 "Province" 2 "Territory" 3 "Nation"(指定哪个标签与哪些数值相联系)