投稿问答最小化  关闭

万维书刊APP下载

千字经验贴 | 定量研究从哪里学,怎么学

2023/2/27 14:30:42  阅读:119 发布者:

转自 |  ApocalypseNow

来源 | 知乎问答

近日,小编在知乎上偶然看到了一个关于《如何自学社会学定量研究?》问题的回答(见文末“阅读原文”)。读罢,小编认为回答得十分详尽、专业。

问题:大家好,我是一名社会学本科生。学完李培林的那本「社会研究的统计应用」后,不知道量化研究进一步应该如何学习。我的目标是能够读懂「社会学研究」上的定量论文,所以求助各位大大能提供一些循序渐进的书单。

回答:

首先,你读的那本小册子,不是李沛良老师写的吗。这本书,你真的掌握了的话,那么你的基础统计应付后面的学习,其实也够用。

但是想未来在定量这里更深入,比如想追Sociological Methodology这种期刊话,建议还是重新找数理统计的书来看,并且补一下其他的数学知识。难度类似陈希孺院士的《概率论与数理统计》和Casella的统计推断即可,这两本非常适合给回炉的人拿来重新打基础。

下面全部讲应用,纯粹为了理解模型和文章:

在基础统计之后,应该学习回归分析了,因为这是社会学常用的模型的基础。推荐书的话,如果学过线性代数,那么别犹豫,谢宇老师那本《回归分析》;没学过呢,或者数学太差,那么我建议是伍德里奇的《计量经济学导论》(时间序列那一块不要看)。

如果,这一步完成了呢。那么你最基本的东西是掌握了,已经可以看懂很多《社会学研究》的定量论文了。

再往下,就是针对处理的数据来选择方法了。

一般来说,社会学的数据,因变量是离散变量的非常很多,所以需要学一门类别数据处理,推荐还是谢宇老师的《分类数据分析》,但这本书好像不太好买到。那么,你可以换一本,我看过Agresti的分类数据分析,你可以试试。主要应付社会学研究里常见的logit模型。

这两个部分,如果需要讲软件操作,Stata操作的话,王存同老师的《进阶回归分析》很适合,code比较详细。R操作的话,我翻过FarawayLinear Model with R觉得不错,GLM的话,还是Faraway的书,Extending the Linear Model with R。最近Mcmaster UJohn Fox退休了,今年噼里啪啦出了两本R的书,老大爷是社会学的背景,写的书不会像科班统计系的书那样过分强调数理,你可以找来看看。

再往下走的话,其他的东西,社会学、人口学论文里比较多出现的,嗯...比如,Cox?原理的话,专门找本生存分析的书来学习,我们老师上课推荐的是Klein以及Cox同志的书。我不做人口学,所以当时就没好好学,这部分一直稀里糊涂,没什么好的建议给你。不过王存同老师的书,还是能帮你应付K-M曲线的绘制和解读,那帮助你看懂《社会学研究》涉及的文章,似乎也可以...

如果,还要再进一步的话。

《社会学研究》的文章偶尔也会出现一些潜变量建模的文章。原理性的东西,比上面的内容会复杂一些了,学到什么程度,根据你自己需要。不过,最基本的测量模型和结构模型还是需要掌握。可以找本多元统计的书,我用过何晓群老师的多元统计,大致掌握因子分析怎么计算,怎么解读就行。

路径分析的内容可以参考温忠麟老师团队在心理学报的普及文章。如果需要专门学习SEM,可以看CUHK的侯杰泰老师SEM的书,侯老师在Coursera上有SEM的课,不过配套的软件是Lisrel。不过我一直觉得SEM的东西很扯,上来就是无脑算,有些心理学管理学的论文更是充满了一个又一个长长的路径,社会科学的研究,老实说光是要做一个干净的X-Y的效应就很困难了,那种所谓中介效应的论文,真的可信?路径分析里面没有可靠的causal link,好在社会学似乎不太感冒心理学的这种论文。

如果数据中,变量有嵌套,比如个人-家庭-社区这种CFPSCHNS为代表的数据,那需要学习一个多水平分析,可以参考社科文献出的那本劳登布什HLM的书。事实上,只要掌握两层模型即可。Stata操作的话,用 SkrondalMultilevel and Longitudinal Modeling Using Stata,不过更多的时候,大家都是看help

另外,追踪调查的话,最好需要专门找一些面板数据的分析方法,这个在经济学里特别多,翻翻伍德里奇的《横截面与面板数据分析》,萧政老师那本书最好,不过只能去图书馆借来看了。当然你也按照嵌套的这个思路来理解,个人多次测量嵌套于个体,然后上Growth Curve Model,这个经济系的人似乎很少提到。

到这里其实已经足够在这个定量圈子里混了......fancy东西,你自己也知道怎么去学了。

受经济学的影响,这几年似乎reduced form的方法越来越流行,总感觉国内社会学的方法是跟着做应用微观计量的人在跑。2010年以后陈云松老师和胡安宁老师介绍了几个常见的因果推断方法,然后一大批青年学生也跟着用,截面数据现在一个简单的多元回归确实不够用了,社会学也越来越强调内生性了,唉....所以,你需要学习怎么处理内生性的问题,学习常见的PSM、工具变量的话,可以看看《基本无害的计量经济学》还有郭申阳老师的书,当然最系统的学习还是MorganWinship师徒的Counterfactual and causal inference,这本书一直没人翻译,很可惜。

再往后,其他还有需要的话,可以关注下Bayesian的东西,统计系的小伙伴,会告你还有贝叶斯分层模型......但是《社会学研究》的定量研究,仍旧都是frequency approach的方法在做论文,也许未来会有另一派的方法进来......

有兴趣可以了解了解ML,现在国内炒得太热了,比teenager sex还火热,不过搞来搞去都是微博数据,连判例网的数据做的都很少,你可看可不看吧,也没见过计算机背景的在《社会学研究》发文。当然,文本挖掘能做的坑,大佬们都在做了,现在看看了解了解计算机视觉好了,未来没准可以玩玩

......

就这样吧。应该够至少看2-3年了这些书。另外,SAGE的小绿皮可以看看,一本小册子一个方法。

软件的话,StataR都可以,Mplus也可以。取决于你个人喜好,我推荐你用stata,如果你英文不好的话,因为RMplus针对以上内容的中文参考书很少,而STATA很多。至于现在火热的Python,凑凑热闹可以,但真没必要花太多时间,社会学的搞这个,真的不是“屠龙术”?Python里面定量方法的轮子自然是没有R丰富的,定量的要发文章,肯定还是再走传统的统计路子。非要去搞搞新意思,完全可以找个计算机的合作.....实证的话,还是用好Rstata......

有一点要提醒的是,也别傻乎乎的从头看书。要Learning by doing,你可以找社会学研究上用open source数据的文章来练习,重复他们的研究,看看能不能做出来他们的结果(虽然很多时候,是重复不出来的233333)。

至于,什么软件跑起来慢的问题,不建议去学C(见过大神做MCMC的时候,把东西喂给C来做#真是开了眼,233333),但是这样学习成本有点大,所以不妨多加根内存条。

转自:“量化研究方法”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com