投稿问答最小化  关闭

万维书刊APP下载

吴开泽:对《复制<社会学研究>的一项研究的结果和感想》的商榷

2023/1/12 14:54:49  阅读:135 发布者:

编者按

《社会学研究》2019年第6期刊发了《住房市场化与住房不平等——基于CHIPCFPS数据的研究》一文,近日有读者对此文进行了复制性研究并提出了一些问题。文章作者吴开泽就相关问题迅速做出回应,本公众号特予以推送,我们倡导和支持公开、理性的学术对话与争鸣。

201911月,本人在《社会学研究》第6期发表了《住房市场化与住房不平等——基于CHIPCFPS数据的研究》。2019124日,一位不具名的热心读者复制了我这篇论文,对研究提了一些疑问,并发表在某公众号上。我很高兴有做质性研究的读者对这篇论文感兴趣。量化研究的重要特点在于可复制性,我这篇论文基于公开数据,感兴趣的读者都可以重新复现。针对该文(以下简称布文)提出的疑问,我重点对数据处理和模型分析结果做如下回应。

一、关于数据处理问题

1.关于CFPS的两期数据(20102014)差异较大的问题

布文作者认为CFPS两期数据(20102014)差异较大,尤其是2014年样本量何以能够达到2086。我再次检查了数据处理do文件,介绍一下我的数据处理和样本选择方法。

首先,布文一个重要疑问是 2014年样本量何以能够达到2086。这一期数据中‘住房建筑面积’这个问题的应答率只有17.4%,总共只有2424个有效值”。这是布文对CFPS2014数据的不了解所致。CFPS2014有两个选项:“fq8:住房面积(与2012年相比)是否变化”,如果有变化,就再填写“fq801:现住房面积(平方米)” 。由于CFPS是追踪数据,我根据个人ID(变量名称为fid12)匹配了2012年的住房面积数据,构建了2014年的住房面积数据库。匹配后有2763个样本,剔除缺失值后纳入模型的是2086个样本。布文认为“这一点他无论如何做不到”。CHIPCFPS数据量很大,需要经过反复检查,4天时间应该是不够的。布文与原文在家庭样本选择上的差异,是研究结论存在差异的重要原因。

其次,在城乡样本选择方面,CFPS有两个选项,一个是统计局的城乡分类(变量名称为urban),另一个是访问员记录的社区分类(变量名为cz7)。由于很多划入城市的区域原来是农村,这些区域很多住房还是宅基地房。为了保证分析的是城市的住房样本,我剔除了CFPS中的农村、郊区和村改居社区样本,以城市家庭作为研究对象。研究住房的学者都知道,中国的城乡住房在产权、价格等方面存在巨大差异,城市样本的选择对研究结果会有显著影响。

再次,在个体样本选择方面,我采用了CFPS成年数据库。CFPS成年数据以户主为基准构建了一个完整的家庭关系数据库,这是成人数据库中样本最全的,也最能反映家庭的情况。由于购房是家庭行为,我们的收入采用了家庭人均收入,而不是个体的收入。布文上说他的操作是“选择每一户中收入最高的个体,因为他/她的情况最能反映该户购买住房的水平。” 布文这种方法会存在一些问题,一是容易造成样本量丢失;二是从实际来看,年轻人的收入可能更高,但购房人可能是他的父母。对个体样本选择的不同,是原文与布文在研究结论上存在差异的另一个重要原因。

2. 关于2002年 “1套住房”和“2套住房”比例偏高的问题

原文的住房产权,主要根据CHIP2002年数据中“B24房屋产权”,以及“B219 除了现住房外的其他住房数量”两个变量确定。B24房屋产权有6个选项:

*1.租赁公房:指调查户租赁房管部门或机关、企事业单位所有并管理的住房。

*2.租赁私房:指调查户向私人或亲友租赁或借用的住房,不论是否交纳房租。

*3.原有私房:指调查户自建、祖传或在房改前购买的住房。

*4.房改私房:指调查户在房改中以成本价或标准价购买的有产权住房。

*5.商品房:指调查户按市价购买的住房,包括经济适用房。

*6.其他:上述5类以外的住房。

在数据处理时,我把345设定为有产权,如果现住房为租赁住房,但B219显示有其他住房的,也设定为有产权。2套以上住房数量,是根据现住房产权和其他住房数量进行汇总后得出。

3.关于各年数据样本量问题

由于布文和原文在样本选取和变量处理等方面差异,两篇文章在描述性统计方面存在一些差异。例如,原文2010年和2014年的样本量分别为3325个和2086个,布文2010年和2014样本量分别为2454个和3539个,反而增加了1085个。我在分析CFPS数据时发现,按国家统计局城乡分类(变量名为Urban),CFPS20102014年城市家庭样本量为分别为7104户和6789户,也是下降的,不存在城市样本量增加1000多个的情况。

 

布文的在一些基础数据处理上的存在不严谨的地方。以布文表12002年住房数量为例,他公布的0套住房、1套住房和2套以上住房的数量分别为35.30%64.28%2.25%,三者相加为102.03%,比100%超出2.03个百分点。这种失误在量化研究中是不可接受的。

此外,布文报告的家庭人均住房资产,2010年为15.25万元,2014年为12.46万元,也就是说2014年的人均住房资产竟然比2010年下降了2.79万元。众所周知,2010-2014年是中国城市房价高速上涨的年份,布文的结果显示人均住房资产下降了,这与现实完全不相符。这也是布文认为人均收入不平等高于人均住房资产不平等的原因。

4.关于工作单位变量处理问题

布文提出“还有一个疑问是作者在考虑“体制外”时竟然将在私企/外企工作与无工作混为一类,这或许可以解释为什么原文没有发现特别明显的单位间不平等。”

关于工作单位变量的分类,外审专家也提出过意见。我这样分类有两个方面的考虑。(1)是基于中国市场转型变迁实际和各年变量一致性的考虑。《住房市场化与住房不平等》分析时间跨度为1988-2014年,这些年是中国市场化转型最为剧烈的年份,就业单位也发生了深刻变化,CHIPCFPS的调查数据也反映了这个变化。按照我的分类,1988年体制外单位仅占0.5%。(2)是基于论文研究目的考虑。论文基于市场转型理论,主要想 “从住房套数、面积和资产等角度考察体制、市场和家庭等因素对住房不平等的影响”。因此,我主要考虑体制内外单位的住房差异。

 

二、关于描述性计算结果问题

1. 关于收入基尼系数问题

布文指出:2014年的收入基尼系数比原文大很多,以致于不能说住房资产的不平等超过收入不平等。”我在前面已经提到,为了保证分析的是城市的住房样本,我剔除了CFPS中的农村、郊区和村改居社区样本,以城市家庭作为研究对象。因此,原文基尼系数的测算是以城市样本为主。我此前也测算过包括城乡样本的基尼系数,远大于城市样本数据,但也没有达到布文所说的0.631。另外,布文2010年的基尼系数为0.469,2014年就上升到0.6314年时间基尼系数上升了0.162。从变化规律来看,没有任何国家的基尼系数能在4年时间内上升0.162,这只能是数据处理或计算上出了差错。

此外,即使布文的数据是对的,他的分析也显示人均收入基尼系数0.631,小于人均住房资产基尼系数0.695,原文的结论仍然成立。布文用自己测算的数据和我的原文比,而不是和他自己测算的数据比,这在方法上也是错误的。

 

2. 关于泰尔系数问题

布文指出:“泰尔系数并不适合来衡量资产不平等”,他的理由是资产可以是负值。作者在论文写作的时候也考虑过这个问题,但从现实情况和数据处理情况来看,布文的质疑的问题并没有出现。从现实情况来看,在原文分析的年份中,全国城市房价都是上涨的,极少有房价下降的城市。在数据处理的时候发现,只有两个样本的住房价格(值)减去住房贷款后的数值为负数,可以忽略不计。为了严谨起见,我在数据分析中删除了住房净资产为负数的样本。

3. 关于住房面积不平等问题

布文指出:“从住房面积来看,我重制的数据中教育、世代、职业组间不平等都没有扩大,单位组间不平等反而有所扩大,与原文论断刚好相反。”布文“原文论断刚好相反”的结论不知从何而来。我在论文中论述了住房市场不同阶段住房面积的变化,原文是这样的:“在住房产权化和产业化阶段,代际和不同学历组间住房面积不平等呈扩大趋势,单位组间不平等呈下降趋势。在住房金融化阶段,单位和职业组间住房面积不平等呈下降趋势,省域不平等呈扩大趋势。”也就是说,我的数据也指出在住房金融化阶段,单位和职业组间住房面积不平等呈下降趋势。我不清楚布文是如何得出“与原文论断刚好相反”的结论。

 

三、关于住房套数统计结果问题

1. 关于住房套数采用模型及分析结果的问题

布文指出,“我最后使用Richard Williams写的STATAoglm来实现这个模型。我在表42002年中重制了两个模型”。由于住房套数属于定序变量, 采用ologit 模型分析时候需要满足平行回归假定。布文采用oglm是否合理,需要商榷。

在文章修改过程中,外审专家也提出平行假定的问题。我用oparallelbrant等命令进行检验时发现,由于省份变量和部门变量的影响,部分年份没有通过平行检验,因此没有直接采用定序Logit模型。我在查阅了相关统计学教材和统计文献的基础上,决定采用广义定序Logit模型(STATA命令为gologit2)分析住房套数。广义定序Logit模型是对定序Logit模型假定条件弱化的模型,该模型不需要满足平行回归假定,允许回归系数随因变量的次序变化而变化(见论文第98页及参考文献)。

2. 关于体制性因素对住房套数影响结果的问题

布文认为“我基本重现了这部分的结果。但我并不认可作者对这一结果的解读。20世纪80年代商品房尚不普及的时代,拥有住房的主要是农村自建房,虽然本研究针对城市家庭,但并未排除城中村、城郊村这些有农村户口的城市家庭。因此在80年代拥有房子的反而在教育、收入、职业上处于劣势。这在90年代末翻转是很正常的,不能说这是“体制资本”的作用。更何况2002年重制数据和原表数据中职业、教育组间差异都不显著。”

我觉得这段话反映了布文和原文在研究问题、数据处理和统计结果上存在重大差异的原因。研究中国住房的学者都知道,中国城乡住房在产权、价格、分配逻辑等方面存在巨大差异,在分析中把这两者混在一起并不合适。我在研究设计阶段就已经剔除了城中村、城郊村这些有农村住房的城市家庭,布文以此来质疑原文的解读,在理论和实际上都是站不住脚的。

3. 关于最高25%收入群体与其他群体住房套数差异减少问题

布文认为2002年、2010年、2014年最高25%收入群体对1套房的影响因素是0.707 - 0.892 - 0.134;对两套房的影响系数是0.849 - 0.771 - 0.418,反而说明优势缩小”。布文得出的这个结果与现实不相符,也几乎与现有研究的所有结论相悖。布文的统计结果和原文相悖,原因主要在样本选取和模型方面存在问题。这个在上一个问题中已经谈到,不再累叙。下面是原文关于最高25%收入群体对1套房和2套以上住房的影响系数和显著度,确实显示家庭收入与住房分层经历了从‘失配’‘适配到‘叠配’的过程。

 

 

四、关于住房面积统计结果分析问题

1. 关于国有机构影响系数问题

布文在复制表5“人均住房面积影响因素变迁的多元线性回归模型分析表示:“1988年国有机构的影响系数确实不显著,2002年也确实显著了,但作者原文数据中2010年后这个影响因素重新不显著了,作用也减小了。并且,这一发现是与作者最终结论相反的。”

《住房市场化与住房不平等》一再强调住房面积不平等的阶段性特征。原文是这样说的“在住房产权化和产业化阶段,不同学历、收入和单位职工的住房面积不平等有显著的阶段性特征。……表5显示,1988年和1995年国有机构的影响系数不显著,2002年变为正向显著。……在住房金融化阶段,单位和职业群体间的住房面积差异减少”。我不理解布文是基于哪个发现认为与作者最终结论相反,因为原文明确写着,住房面积不平等有显著的阶段性特征。

 

  

2. 关于单位、职业群体住房面积差异问题

布文指出“高收入阶层的优势得到复制数据支持,但并没有一直扩大,因为房子并不是越大越好。2002年之后差距缩小,原表数据则是2010年后。单位、职业群体间差异都在缩小,教育优势不明显。这些都与作者基本判断相悖。”布文认为这些与作者基本判断相悖,我不理解布文基于哪些文字说明与原文基本判断相悖。首先,原文对房子是不是越大越好是有限定条件的,原文考虑到不同地区的差异,控制了省份的差异。在这种条件下,一般情况下城市住房面积当然是越大越好。但布文的样本包含了城中村和城郊村的住房,当然另当别论。其次,我在文章中一直强调,在产权化和产业化阶段,单位、职业群体间住房面积差异在扩大;在住房金融化阶段,单位、职业群体间住房面积差异在缩小(原文第101页)。

3. 关于住房面积世代差异问题

布文认为“住房面积的世代差异是原文最重要的结论之一,作者认为是福利房时期处于“成就期”的世代(即1940-1949年出生的一代)具有住房面积优势。其实福利房并不见得比商品房大,我觉得有更可能的是这一代人子女较多,成年子女协助下购买能力强,这属于这一代人特殊的人口学优势。”

布文这句话存在逻辑错误和主观臆测之嫌。首先,原文的结论是有特定阶段的。原文指出“在住房产权化和产业化阶段,……  由于福利住房的分配逻辑,在产权化改革进程中处于职业成就期的世代住房优势显现。”其次,布文用“福利房并不见得比商品房大”这样模棱两可的依据来反驳,在逻辑上是站不住脚的,面积的大小应该用数据来说明,不应该用主观猜测。

 

五、关于住房资产统计结果分析问题

1. 关于资产和家庭收入差异哪个大的问题

布文认为“最高收入组的住房资产肯定比最低组要多。但是重制数据的差距并没有作者所估计的那么大。如果将因变量置换为家庭收入,那么系数反而更大,不能说住房资产不平等增长比收入不平等增长更快。”

关于资产差异和家庭收入差异哪个大的问题,我认为是布文在一些基础数据处理上的存在不严谨的地方所致,这个在前文第一章第1和第2点,以及第二章关于收入基尼系数和资产泰尔系数问题已经说明清楚了。

2. 关于体制性因素影响的问题

布文认为“体制内不仅不是优势,反而成为劣势。教育确实有优势,但同样没有作者说的那么大。职业优势的扩大确实比较明显。”

关于体制性因素影响,原文一再强调体制性单位的影响具有阶段性的特征。有兴趣的读者可以读原文第110-111页。原文指出“在住房市场化进程中,体制因素影响减弱,市场因素和家庭因素影响增强”。

 

六、关于布文作者吐槽

1.关于“原文将结论写成一些比较笼统的、几乎不会出错的论断,而不是清晰的、可操作的经验性假设”

首先,量化研究的特点是尽量寻找变量间的因果关系,因此必须基于事实和数据进行阐述。尽管每个作者对数据的解读可能不一样,但我们不能因为解读的不一样就否定量化研究。

量化研究的结论是有前提条件的。首先是样本的选取问题,《住房市场化与住房不平等》原文在样本选取方面严格限定为城市地区,剔除了城中村和城郊村住房。其次是计算严谨性问题,作者集中用了大概半年的时间来处理数据,也根据外审专家的意见反复进行修改,我认为是分析结论是有可信度的。布文用四天的时间复制论文,在样本选取、指标测算都存在瑕疵的情况下质疑作者的结论,可能不合适。第三是假设问题。假设问题的提出是基于学术对话,布文关于“清晰的、可操作的经验性”标准我也认可,但大家理解方面可能存在差异。

2.关于“原文以求简洁的名义,将省际差异的影响系数隐去不报”

布文认为“原文以求简洁的名义,将省际差异的影响系数隐去不报。有求芝麻丢西瓜之憾。跟地域造成的住房资产不平等相比,收入造成的住房资产不平等非常有限。我做个图直观地表现一下这个差别。”

1)关于简洁的问题。我借用上海交通大学陆铭教授朋友圈的一幅图说明情况,他认为好的论文,本质上是下图的图9。我非常认同这一观点,量化研究对研究问题和概念的要求是尽可能简化。

2)关于将“省际差异的影响系数隐去不报”的问题。外审专家曾经指出“当前中国的住房分化在不同区域、城市之间,特别是超大城市与“收缩型”城市、小城市之间在房价、住房财富等方面呈现出巨大差异,作者为了呈现全国范围内一般性的结果而消除区域差异是否会忽略了‘更为有意义的发现’”。我认为地区间住房不平等确实是中国城市住房不平等的重要原因,这也确实是一个非常值得研究的问题。由于论文的目的一方面在于解释城市住房不平等的原因,更重要的目的是通过研究市场转型背景下体制性因素、市场性因素和家庭性因素对住房分化的影响,进行学术对话。如果不消除区域分化的影响,论文的研究结论就会受到区域不平等的影响。

 

七、余论

 

感谢布文作者对论文的复制,让学界对这个问题产生兴趣。我也再次感谢《社会学研究》编辑部和外审专家的严谨工作。

论文确实存在一些不足。由于原文采用的CFPS数据是一个追踪数据,其中2014年没有调查现住房面积,我匹配2012年的数据纳入模型分析,所以该年份的个别变量显示不显著。我在论文修改时通过仔细检查数据结果,对一些结论进行了修正,在原文第110-112页进行了讨论,有兴趣的读者可以查看。

当年在学习定量研究方法的时候,老师们再三嘱咐,定量研究必须有严谨的学风,分析数据之前必须对数据有充分了解。我一直铭记于心。所以我本着实事求是的原则,对布文提出的疑问一一作出回应。

借此机会,我希望读者在评价量化论文时,尽量减少偏见,这样更有利于学术共同体的创建。学术交流应该开诚布公,理性对话。科研水平有高低,对数据的解读也会有差异,希望学术交流能更加理性。原文采用的CFPSCHIP数据均为公开数据,有兴趣的读者可以通过《社会学研究》编辑部向原文作者索要论文相关资料。为及时做出回应,对布文最后吐槽部分回应得比较简单,以后我会考虑做一个更全面、更深刻的回应。

吴开泽

2019124日晚22:50

本文转载自微信公众号“社会学研究杂志”。

转自:“量化研究方法”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com