赞
踩
pass
generate利用现有变量生成一个新的变量
generate average = sumwage/people
gen lpeople = ln(people)
replace利用现有变量生成一个新的变量替换原来的变量
replace sumwage = sumwage/people
分类变量(虚拟变量)是通过定义值的方式对观测样本进行分类
对type生成新的分类变量
tabulate type,generate(type)
定序变量是根据数据的数值大小将数据分到几个特定的区间
生成新的定序变量对number定序,分到三个标志区间
generate number1=autocode(number,3,1,25)
&esmp; 数据的长短变换
reshape longnumber,i(region)j(year)
reshape wide number,i(region)j(region)// 变回来
encode region,gen(regi) //把地区字符串变量转换成数值数据
clear //清楚原有数据
set obs 15 //设定一个包含15个样本的数据集
generate suiji = uniform() //生成一个随机变量,包含0-1的15个随机数据
list 3 //列出第三条数据
list in1/3 //列出1-3条数据
sort shangjiao // 对变量进行排序
list year shangjiao shenjiao in 1/2 //列出变量值shangjioa最小的两条数据
list if year >2005
list if year > 2005 & shangjiao > 865
drop in 3 //删除第三条数据
drop if year==2005
//x轴数值标签0-300,间距25,y轴数据标签0-10,间距1
histogram number,frequency title('')xlabel(0(25)300)ylabel(0(1)10)
//y轴添加刻度0-10,间距0.5;使第一个直方条从10开始,每一条宽度25
ytick(0(0.5)10)start(10)width(25)
igraph twoway scatter SG TZ,title('')xlabel(56(2)80)ylabel(150(10)190)ytick(150(5190))
msymbol(D)mcolor(yellow)
// 散点标志的形状 颜色
graph twoway line total first year,title('')xlabel(1997(2)2012)ylabel(0(10)80)xtick(1997(1)2012)
legend(label(1,'')label(2,''))
clpattern(solid dash) //改变线的样式
graphy twoway connected number month,title('')xlabel(1(1)2)ylabel(1000(1000)7000)ytick(1000(500)7000)
clpattern(dash) msymbol(D)
graph box SCFE,over(center)
graph pie CANYIN FANGCHAN ZHIZAO,pie(1,explode)pie(2,color(yellow))
plabel(1 percent,gap(20)),plabel(2 percent,gap(20)) by(region)
graph bar sum number,over(team)title('')ylabel(1000(1000)7000)ytick(1000(500)7000)
graph dot man,wowan,over(name)title('')maker(1,msymbol(D))maker(2,msymbol(T))
summarize cunsumption
summarize cunsumption,detail
很具自己的需要获取相应的统计指标
summarize cunsumption,stats(mean range sum var)
按另一变量分类列出某变量的统计指标
summarize cunsumption,stats(mean range sum var) by(region)
创建变量总体均值的置信区间
ci means cunsumption,level(98)
sktest sum
generate srsum=sqrt(sum)
sktest srsum
generate lsum=ln(sum)
sktest lsum
尝试幂阶梯上的每一种幂次并逐个反馈结果正态性
ladder sum
在ladder基础上作图
gladder sum
tabulate marry,plot
tabulate smoke drink,column row
tab1 account audit economy //对所有分类变量进行单个变量汇总统计
tab2 account audit economy//对所有分类变量进行二维列联表分析
by account,sort:tabulate audit economy //以是否accounts为主分类变量制作三个分类变量的三维列联表
多功能命令,可实现多种数据的频数,标准差数据特征的数据分析,如简单的频数猎镰分析
table account audit economy,contents(freq)
实现样本均值和总体均值的比较
ttest weight=67.4
ttest weight=67.4,level(99)
实现两个独立样本的均值比较
ttest englishA=englishB,unpaired level(99)
ttest englishA=englishB,unpaired,level(99) unequal //异方差条件
实现对成对数据的样本均值比较,两样本来自于同一总体,数据顺序不能调换
ttest qian=hou
sdtest return=1
判断两个样本的波动情况
sdtest returnA=returnB
本质上是一种拟合优度检验,检验样本特征是否服从正态分布
分别是Wilks-Shapiro;偏度-峰度
判断两独立样本是否来自相同分布的总体,通过分析两独立样本的均值,中位数,离散趋势,偏度等
ranksum sum if year>1990,by(group)
判断两相关样本是否来自相同分布的总体
signtest qian=hou
判断多个独立的样本是否来自相同分布的总体
kwallis goal,by(school)
判断样本序列是否为随机序列
oneway weight group,tabulate
anova renew method time method # time
test method
anova nowsalary identity policy c,beforesalary
regress
考察测量指标是否会随测量次数的增加而变化
anova sale number plan,repeated(plan)
correlate month tem hour
//获得变量的方差-协方差矩阵
correlate month tem hour,covariance
// 获得相关性的显著性检验
correlate month tem hour,sig star(0.01)
pcoor YW SX IQ
correlate V2-V19
pca V2-V19
pca V2-V19,mineigen(1) //只保留特征大于1
pca V2-V19,components(1) // 限定提取主成分的个数
factor V2-V7,pcf // 使用主成分因子法进行因子分析
rotate // 对因子结构进行旋转
loadingplot,factor(2)yline(0)xline(0) // 绘制因子旋转后的因子载荷图
predict f1 f2 // 显示因子得分系数矩阵
list V1 f1 f2 // 估计因子分析后各个样本的因子得分情况
correlate f1 f2 // 展示提取的主因子和相关系数矩阵
scoreplot,mlabel(V1)yline(0)xline(0) // 展示每个样本的因子得分示意图
estat kmo // 显示KMO检验的结果
screeplot 绘制因子分析的碎石土
egen zv2 = std(V2)
egen zv3 = std(V3)
egen zv4 = std(V4) // 标准化处理
sum zv2 zv3 zv4 // 描述性统计分析
cluster kmeans zv2 zv3 zv4,k(2) // 对这三个变量进行K个平均数的聚类分析,并将样本分为两类
cluster kmedians zv2 zv3 zv4,k(2)
cluster kmeans zv2 zv3 zv4,k(2) measure(L2squared)
cluster kmeans zv2 zv3 zv4,k(2) measure(L1) name(abcd) start(firstk)
cluster kmeans zv2 zv3 zv4,k(2) measure(L1) name(abcd) start(firstk,exclude)
...
vluster singlelinkage zv2....
cluster dendrogram
cluster generate type1=group(4)
summarize year inflation unwork,detail // 对年份,通货膨胀率,失业率变量进行描述性统计分析
correlate year inflation unwork
regress unwork inflation // 对年份,通货膨胀率,失业率变量进行简单的线性回归分析
vxe // 获得参与回归的各个自变量的系数以及常数项的方差-协方差矩阵
test inflation = 0 // 检验变量通货膨胀率的系数是否显著
predict yhat // 对因变量的拟合值进行预测
predict e,resid // 获得回归后的残差序列
在回归方程中不包含常数项
regress unwork inflation ,cocon
限定参与样本回归范围
regress unwork inflation if year >=2000
summarize TC Q PL PF PK ,detail
correlate TC Q PL PF PK
regress TC Q PL PF PK // 对总成本TC,产量Q,工资率PL,燃料价格PF,资本租凭价格PK进行多元线性回归分析
vce
test Q PL PF PK // 检验参与回归的各自变量系数的联合显著性
predict yhat // 对因变量的拟合值进行预测
predict e,resid //
regress TC Q PL PF
&emsp: 自动剔除不显著的变量
sw regress TC Q PL PF PK ,pr(0.05)
summarie V1 V2 V3 V4 V5,detail correlate V1 V2 V3 V4 V5 regrss V1 V2 V3 V4 V5 vce // 得变量的方差-协方差矩阵 test V2 V3 V4 V5 // 检验回归分析获得的各个自变量系数的显著性 predict yhat predict e,resid rvfplot // 绘制残差与回归得到的拟合值的散点图,探索数据是否存在异方差 rvpplot V2 // 绘制残差与解释变量V2的散点图 estat imtest,white // 怀特检验,检验数据是否有存在异方差 estat hattest,iid // BP检验,使用得到的拟合值来检验数据是否存在异方差 estat hettest,rhs iid // BP检验,用方程右边的解释数据来检验方程是否存在异方差 estat hattest V2,rhs iid // BP检验,用指定的解释数据V2来检验变量是否存在异方差 regress V1 V2 V3 V4 V4 ,robust // 采用稳健的标准差对数据进行回归分析,克服数据的异方差对最小二乘回归分析造成的不利影响
reg V1-V5 // 以V1为因变量,V2,V3,V4,V4为自变量,进行最小二乘回归分析
predict e,resid
gen ee=e^2 // 对残差数据进行平方变换,ee作为新的残差平方
gen lnee=log(ee) // 对数据进行对数变换,产生新变量lnee为上步得到残差平方的对数值
reg lnee V2,nocon // 以上步得到的残差平方对数值为因变量,以V2为自变量,且不包括常数项的最小二乘回归分析
// 对四个变量所包含的样本数据一一进行展示 list year sale cost profit // 因为面板数据要求其中的个体变量取值必须为整数且不允许重复,需对各个观测样本进行有序编号 // 将diqu这一字符串变量转化为数值型变量 encode diqu,gen(region) // 对面板数据进行定义,横截面维度变量为上一步生成的region,时间序列变量为yrar xtset region year // 观察面板数据结构,考察面板数据特征 xtdes // 显示面板数据组内,组间及整体的分布频率 xtsum // 显示sale变量组内,组间及整体的分布频率 xttab sale xttab cost xttab profit // 对每个个体显示sale变量的时间序列图 xtline sale xtline cost xtline profit // 以profit为因变量,sale,cost为自变量,进行最小二乘回归分析 reg profit sale cost // 以profit为因变量,sale,cost为自变量,并使用以region为聚类变量的聚类稳健标准差 // 进行最小二乘回归分析 reg profit sale cost,vce(cluster region) // 以profit为因变量,sale,cost为自变量,并使用以region为聚类变量的聚类稳健标准差, // 进行固定效应回归分析 xtreg profit sale cost,fe vce(cluster region) // 以profit为因变量,sale,cost为自变量,进行固定效应回归分析 xtreg profit sale cost,fe // 存储固定效应回归分析的估计结果 estimates store fe // 通过构建最小二乘虚拟变量模型来分析固定效应模型是否由于最小二乘回归分析 xi:xtreg profit sale cost i.region,vce(cluster region) // 创建年度变量的多个虚拟变量 tab year,gen(year) // 通过构建双向固定效应模型来检验模型中是否应该包含时间效应 xtreg profit sale cost year2-year5,fe vce(cluster region) // 在上一步回归基础上,通过测试各虚拟变量的系数联合显著性来检验是否应该在模型中纳入时间效应 test year2 year3 year4 year5 // 进行随机效应回归分析 xtreg profit sale cost,re vce(cluster region) // 在上一步回归基础上,通过假设检验来判断随机效应模型是否优于最小二乘回归模型 xttest0 // 使用最大似然估计发=法,进行随机效应回归分析 xtreg profit sale cost,mle // 使用组间估计量,进行组件估计量回归分析 xtreg profit sale cost,be
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。