聂辉华工业企业数据库_怎么把工业企业数据库弄成面板数据

❶ 中国工业企业数据库怎么获取

中国工业企业数据已成为国内外学者研究中国企业行为和绩效的主要数据之一，但是这个数据库处理起来并不容易。在正式开始之前，我们必须清楚两个概念：

1、脱敏数据：所谓脱敏之后的工业企业数据，就是指这份工业企业数据每个企业的名称、地址、电话等敏感信息已经剔除；

2、序贯匹配：将不同年份的未脱敏数据合并为一份面板数据时，需要每家企业具有唯一的企业标识码，序贯匹配的方法可以为每家企业生成唯一的标识码（除序贯匹配外还有聂辉华（2012）交叉匹配法，本文主要以序贯匹配法为例）；

有了上述两个概念之后，就可以将我们获取的工业企业数据分为以下三种类型：

1、经过序贯匹配之后的未脱敏数据

2、经过序贯匹配之后的脱敏数据

3、未经过序贯匹配的未脱敏数据

首先是经过序贯匹配之后的未脱敏数据（获取这类数据的渠道包括：EPS、中国工业企业数据查询系统），这一类型的数据未脱敏，因此可以与污染、创新、海关等数据库匹配使用，但由于数据商并没有提供序贯匹配的代码和详细方法，因此序贯匹配过程是一个黑洞；

其次是经过序贯匹配之后的脱敏数据（获取这类数据的渠道包括：RESSET），这一类型的数据脱敏，因此不可以与其他数据库匹配使用，并且序贯匹配过程是一个黑洞；

最后是未经过序贯匹配的未脱敏数据（获取这类数据的渠道包括：不详高校老师可能有），这一类型的数据未脱敏，因此可以与其他数据库匹配使用，并且这一类型数据并没有经过序贯匹配的方法为每家企业生成唯一的标识码，因此可以自己参考Brandt et al.(2012)等方法进行匹配，避免序贯匹配过程的黑洞；

❷ 怎么把工业企业数据库弄成面板数据

中国工业企业数据库的使用现状和潜在问题聂辉华江艇杨汝岱  提要：在经验研究中，企业级的微观数据正受到越来越多的重视。中国工业企业数据库成为海内外学者研究中国企业行为和绩效的主要数据库之一。但是该数据库存在样本匹配混乱、变量大小异常、测度误差明显和变量定义模糊等严重问题，忽视这些问题可能会导致研究结果错误。本文介绍了该数据库的基本情况和使用现状，指出了该数据库的若干缺陷，并根据现有研究提供了若干改进建议。关键词：企业数据工业企业微观计量制造业生产率 JEL 分类号：C33 D24 L22 L60 一、引言数据是经验研究的细胞，因此数据质量的好坏直接决定了经验研究的活力。最近十多年来，国际经济学界越来越重视使用微观面板数据（longitudinal micro-level data）的研究。相对于宏观数据或行业数据，微观的企业数据或个体数据的优势是非常明显的：第一，微观面板数据包含了更多信息，例如企业的所有制、规模和出口等状态，这些信息对于企业行为研究是必不可少的；第二，微观面板数据同时包含了时间维度和个体维度，有助于解决计量经济学中的个体异质性问题，更容易保证估计的一致性；第三，微观面板数据增加了观测值个数，使得估计更有效率。对于产业组织理论、企业理论、公司金融、国际贸易、收入分配和劳动供给等研究领域来说，经验研究的数据主要就是微观数据。伴随微观计量经济学的引入和国内外微观数据库的开放，中国经济学者越来越重视微观数据的开发和使用，并生产了很多基于微观数据的研究成果。一些中国数据库甚至被全世界各国学者使用，这一方面表明中国问题越来越受到国际经济学界的重视，另一方面也表明中国数据的质量得到了越来越多的认可。特别是，相当多海内外学者使用了“中国工业企业数据库”（Chinese instrial enterprises database） ① ，其研究成果广泛发表在包括《American Economic Review》（如Song等，2011）、《Quarterly Journal of Economics》（如Hsieh和Klenow， 2009）和《经济研究》等国际和国内着名学术期刊上。作为一个由中国国家统计局收集的数据库，它的优点是样本大、指标多、时间长。但是，它毕竟不是一个由学术机构发布的数据库，因此在很多方面还不太符合学术研究的严格要求，其缺陷包括样本匹配混乱、指标存在缺失、指标大小异常、测度误差明显和变量定义模糊等严重问题。我们认为，如果研究者没有察觉到这些数据缺陷，并且采取有效的方法缓解或消除这些缺陷，那么就会对经验研究的结果产生负面影响，甚至会导致错误的结果。而错误的结果对于理论研究和经验研究来说，不仅浪费了时间和精力，而且可能会产生误导作用。鉴于此，我们认为有必要详细地、严谨地讨论中国工业企业数据库的基本情况、使用现状，指出其存在的问题，并尽可能提供解决问题的建议。我们希望，本文的分析不仅有助于潜在使用者了解该数据库的研究现状和未来  聂辉华，中国人民大学经济学院，人大企业与组织研究中心，北京市 100872；email: [email protected]。江艇，中国人民大学经济学院，人大企业与组织研究中心，[email protected]；杨汝岱，湘潭大学消费研究院，[email protected]。作者感谢何帆对写作本文提供的建议，感谢屠顺杰提供的助研工作，同时感谢两位匿名审稿人提供的有益建议。本文的研究得到姚洋主持的国家社科基金重大项目“我国中长期经济增长与结构变动趋势研究（09&ZD020）”和聂辉华、杨汝岱分别主持的教育部新世纪优秀人才项目的资助，特此鸣谢。文责自负。 ① 一些英文文章将该数据库名称翻译为“China Annual Survey of Instrial Firms”或“China Annual Survey of Manufacturing Firms”。 1 本文发表于《世界经济》2012 年第5 期方向，而且有助于他们更准确地使用该数据库，从而推进相关领域的研究。当然，作为该数据库的使用者之一，我们并不能保证我们全面地熟悉了该数据库，并且我们对问题的分析不可避免地包含了一定的研究倾向。二、数据库基本信息我们首先简单地描述数据库的基本情况。中国工业企业数据库由国家统计局建立，它的数据主要来自于样本企业提交给当地统计局的季报和年报汇总。该数据库的全称为“全部国有及规模以上非国有工业企业数据库”，其样本范围为全部国有工业企业以及规模以上非国有工业企业，其统计单位为企业法人。这里的“工业”统计口径包括“国民经济行业分类” 中的“采掘业”、“制造业”以及“电力、燃气及水的生产和供应业”三个门类，主要是制造业（占 90%以上）。这里的“规模以上”要求企业每年的主营业务收入（即销售额）在 500 万元及其以上，2011 年该标准改为2000 万元及其以上。基于上述统计口径的数据库自1998 年开始采集，但多数学者使用的工业企业数据库涉及的年份在1999－2007 年之间。由于该数据库的主要成份为制造业企业，在统计口径上与其它国家的产业分类比较一致，而且一些变量（例如资本、研发投入和出口交货值）更容易度量，因此使用者通常析出该数据库中的制造业企业。制造业的统计口径包括从农副食品加工业、食品制造业到工艺品及其它制造业、废弃资源和废旧材料回收加工业等30 个大类（二位数行业），对应于国民经济行业分类与代码（GB/T4754—2002）中的代码 13－43（没有 38）。为了保持企业样本的完整性，同时与现有研究具有可比性，我们以1999－2007 年全部国有及规模以上非国有工业企业作为我们分析该数据库的主要样本。 1999－2007 年中国工业企业数据库包括了 200 多万个观测值，每年的样本企业数量从 1999 年的大约16 万家逐年递增到2007 年的大约33 万家。 ① 在9 年样本期内，总共有大约 55 万家企业出现，包括上市公司。显然，这是一个巨大的非平衡面板数据。由于企业关闭、改制、重组等各种原因，只有4 万6 千多家企业（约占样本企业总数的8%）连续出现在整个样本期间。该数据库样本占据了中国工业企业的绝大部分比例。根据具有可比性的 2004 年第一次全国经济普查年报，当年工业企业销售额为218442.81 亿元。而中国工业企业数据库当年全部样本企业的销售额为195600 亿元，约占全国的89.5%。 ② 目前，除了经济普查数据库，中国工业企业数据库是可获得的最大的企业级数据库。表1 描述了1999－2007 年企业总数和国有、集体、民营、外资企业（含港澳台企业）的份额变化。可以看出，国有和集体企业的比例在显着减少，从1999 年的三分之二下降到2007 年的不足十分之一，而民营企业的比例从不足 20%迅速增加到超过 70%。该表从一个侧面反映了中国市场经济结构的剧烈变动。表1 中国工业企业的类型、数目和比例年份国有比例% 集体比例% 民营比例% 外资比例% 总数 1999 52817 32.86 53507 33.29 27757 17.27 26652 16.58 160733 2000 44665 27.66 49383 30.58 39192 24.27 28240 17.49 161480 2001 36781 21.67 42528 25.06 59208 34.89 31178 18.37 169695 2002 31570 17.55 38237 21.25 75884 42.18 34208 19.02 179899 2003 25157 12.93 32334 16.62 98698 50.74 38318 19.70 194507 ① 学者们使用的该数据库可能有几个不同的来源，但是内容相差很小。 ② 经济普查的工业企业销售额来自国家统计局网站《第一次全国经济普查主要数据公报（第二号）》，工业企业数据库中的工业企业销售额来自作者计算。 2 本文发表于《世界经济》2012 年第5 期 2004 27403 9.89 26896 9.70 165864 59.85 56976 20.56 277139 2005 18520 6.86 23875 8.84 171603 63.53 56112 20.77 270110 2006 16209 5.40 20983 6.99 202417 67.43 60585 20.18 300194 2007 11724 3.50 19355 5.78 236823 70.68 67174 20.05 335076 来源：作者根据数据库计算事实上，工业企业数据库也是最全面的企业数据库。该数据库包括企业的两类信息，一类是企业的基本情况，另一类是企业的财务数据。企业的基本情况包括：法人代码、企业名称、法人代表、联系电话、邮政编码、具体地址、所属行业、注册类型（所有制）、隶属关系、开业年份和职工人数等指标。企业的财务数据包括：流动资产、应收账款、长期投资、固定资产、累计折旧、无形资产、流动负债、长期负债、实收资本、主营业务收入、主营业务成本、营业费用、管理费用、财务费用、营业利润、利税总额、广告费、研究开发费、工资总额、福利费总额、增值税、工业中间投入、工业总产值和出口交货值等指标。全部指标大约为 130 个。特别是，2004 年为第一次全国经济普查年，因此在数据库中当年的企业指标还包括了不同学历（研究生、本科、大专、中专、高中、初中及以下）、不同职称（技术职称和技师等）的男职工和女职工的相应数量，此外还包括了企业是否加入工会以及加入工会的人数等其它年份所没有的信息。毋庸置疑，工业企业数据库的优势非常显着。第一，它的样本量非常大，涵盖了全国所有的国有工业企业和规模以上的非国有工业企业。9 年的观测值总数超过200 万个。2006 年之后，每年的样本企业数目已经超过了30 万个。除了普查数据库，还没有哪个企业数据库在样本量上能与之匹敌。从统计学或计量经济学的角度讲，大样本的优势是降低估计的近似偏误，提高估计的效率。第二，它的指标非常多，包括了企业的基本情况和企业的财务数据，能够从多个角度比较全面地反映企业的市场进入、投资、借贷、广告、研发、出口等行为和企业的短期与长期经营绩效，并且企业加总数据能够反映出企业所处行业或地区的市场结构。从产业组织理论的角度讲，一旦可以获得市场结构、企业行为和绩效的数据，学者们几乎就可以进行任何主题的研究！公司金融、企业理论、国际贸易和产业集聚等相关领域的研究者们也可以对该数据库各取所需，包括进行跨专业研究。如果将该数据库和其它数据库合并，那么学者们将会发现更加丰富的研究视角。指标越多，在构建计量方程时解释变量和控制变量就越多，这样可以减少遗漏变量问题。第三，它的时间序列比较长。工业企业数据库最早的建立年份是1998 年，目前已经更新到了2008 年，前后跨期11 年。这使得研究者采用动态面板方法具有可行性，从而有助于反映历史因素的作用，以及从动态的角度研究企业和产业的演化过程。相对而言，目前流行的其它几个企业数据库，例如万得金融数据库、色诺芬经济金融数据库、国泰安上市公司数据库，样本企业都是上市公司，它们的指标更全面、准确，提供指标的频率也更高。比如，这些上市公司数据库通常包括了主要股东持股情况、董事会成员和高管的个人特征以及职位变动，从而可以研究公司治理结构。另外，上市公司数据库不仅包含工业类上市公司，还包含了金融类和服务类上市公司，这也是工业企业数据库所缺乏的。此外，一些特定的调查项目也催生了企业数据库。例如，2006 年世界银行和国家统计局对中国12 省的1200 多家企业进行了调查，内容涉及企业社会责任、内部管理、质量管理、劳动管理、环境管理、市场竞争以及技术改造等方面。从1991 年到2006 年，中央统战部和全国工商联陆续对全国民营企业的经营情况进行了抽样调查，内容涉及企业基本情况、管理体制、企业家背景以及劳资关系等方面。 ① ① 关于其它企业数据库，感兴趣的读者可以访问香港中文大学中国研究服务中心的网站。 3 本文发表于《世界经济》2012 年第5 期三、数据库使用现状由于工业企业数据库的独特优势，近几年来每年都有大量的海内外经济学者使用该数据库撰写和发表论文，主题涵盖产业组织理论、企业理论、公司金融、转型经济学、国际贸易、劳动经济学和区域经济学等学科。下面，我们简要介绍工业企业数据库在上述经济学分支中的使用现状。一方面，我们希望这有助于感兴趣的研究人员了解人们在不同领域已经用该数据库做了什么，还可以做什么；另一方面，我们希望这有助于感兴趣者了解现有研究者是如何做这些研究的。当然，囿于篇幅和精力，我们不可能囊括所有使用该数据库的文献，而是将目光聚焦于国内外的主要学术期刊或者流传较广的英文文章。 1、生产率在所有使用该数据库的相关研究文献中，企业生产率是最受关注的主题。因为生产率是最重要的效率度量，正如克鲁格曼（Krugman，1997）所言：“生产率不是一切，但是长期来看生产率近似于一切。”而且，对于计算企业生产率而言，工业企业数据库提供了加总数据所不具有的独特优势。利用工业企业数据库中提供的销售额或经济增加值（表示Y）、固定资产（表示K）和职工人数（表示L），采取相应的价格指数进行平减，可以计算出每个企业的劳动生产率和全要素生产率（total factors proctivity，简称TFP）。鉴于劳动生产率不能反映资本的效率，因此多数文献以TFP作为生产率的度量。又因为制造业口径与国际产业分类更具可比性，所以现有文献在计算TFP时几乎都以制造业企业为样本。在计算TFP时，一些学者采取了传统的索洛残差法（Solow resial），例如谢千里等（2008）、Hsieh和Klenow （2009）；一些学者采取了主流的OP方法（Olley和Pakes，1996），例如张杰等（2009）、余淼杰（2010）、聂辉华和贾瑞雪（2011）、杨汝岱和熊瑞祥（2011）、Brandt等（2012）；一些学者采取了LP方法（Levinsohn和Petrin，2003），例如周黎安等（2007）；一些学者采取了随机边界方法（SFA），例如刘小玄和李双杰（2008）。 ① 2、国际贸易与生产率研究密切相关的是国际贸易，更具体地说，是考察企业出口与生产率的关系。根据着名的企业异质性假说（Melitz，2003），生产率高的企业会倾向于选择出口，即生产率和出口是正相关的。工业企业数据库包含了企业出口交货值，但无法区分一般贸易和加工贸易企业。利用工业企业数据库，一些学者检验了这一假说对于中国企业是否成立。张杰等（2009）利用1999－2003 年的制造业企业数据发现，出口有利于企业提高TFP，即存在出口的“学习效应”。而李春顶（2010）利用1998－2007 年的样本发现，出口企业的平均TFP 或劳动生产率低于内销企业，他认为这是“生产率悖论”。此外，赵伟等（2011）发现劳动生产率与出口选择是负相关的，但 TFP 有时与出口选择是正相关的。这似乎表明，利用该数据库文献研究还没有明确地支持企业异质性假说，但 Lu（2010）对此提供了一个理论解释。还有一些学者利用工业企业数据库做了相关的研究。例如，余淼杰（2010）发现，贸易自由化（降低关税）会提高出口企业的TFP；包群等（2011）发现，制造业企业出口后对其员工收入的改善并不明显；杨汝岱和郑辛迎（2011）发现行业的垂直专业化程度对企业员工工资有差异化影响。 3、外商直接投资中国加入 WTO 已经十周年了，外商直接投资（FDI）究竟在中国的经济发展中扮演了什么样的角色？亓朋等（2008）利用1998－2001 年的制造业企业数据，考察了外资企业对内资企业 TFP 的溢出效应，发现在行业内溢出效应不显着，行业间和地区间均存在正的溢出效应。罗雨泽等（2008）使用2000 年和2002 年的制造业企业数据，发现外商投资企业对 ① 聂辉华和贾瑞雪（2011）比较了计算TFP 的几种方法的优劣。 4 本文发表于《世界经济》2012 年第5 期本行业和本地区的内资企业有显着正的溢出效应。有趣的是，路江涌（2008）利用 1998－ 2005 年的制造业企业数据，发现外资企业对内资企业的溢出效应随地理距离而递减，在本市内溢出效应为正，在全国范围内为负，并且对国企为负，对民企为正。Du 等（2011）发现，外资企业对内资企业的溢出效应主要是通过前向或后向产业关联实现的，横向产业关联没有产生显着的溢出效应；而且，来自港澳台的外资企业和来自外国的外资企业对内资企业的影响也不相同。Xu 和Sheng（2011）也得到了类似的发现。Sheng 等（2011）还发现，FDI 通过后向产业关联提高了内资企业的出口价值，通过同行业的示范效应提高了内资企业的出口倾向。Chen 等（2011）发现，外资企业具有明显的工资溢价，并且对内资企业的工资有抑制作用，从而加剧了企业之间的工资不平等现象。 4、研发技术创新是企业生产率的重要源泉之一，因此企业的研究开发（R&D）行为也备受关注。关于 R&D 的文献主要分为两类：第一类是研究 R&D 或者企业创新的决定因素，主要是检验“熊彼特假说”；第二类是研究企业的 R&D 对绩效的影响。聂辉华等（2008）利用 2001－2005 年的制造业企业数据，分析了发现企业的研发密度（度量创新）与规模、市场竞争之间均呈倒 U 型关系，而且尽管国有企业的研发密度比民营企业的更高，但是研发的效率更低。Hu 等（2009）发现FDI 和企业改制对于促进企业研发密度有正面作用。陈林和朱卫（2011）使用2005－2006 年的工业企业数据，根据国有经济比重区分行政进入壁垒高的行业和行政进入壁垒低的行业，发现在前一类行业中创新与市场结构之间是倒U 型关系， “熊彼特假说”成立，但是在后一类行业中相反。Chesbrough 和Liang（2007）以制造业中的半导体行业为例，发现市场导向会影响企业R&D 的投资回报，即全球市场导向的企业比国内市场导向的企业能够获得更高的 R&D 回报。戴觅和余淼杰（2012）发现，出口前的 R&D 投资能够促进企业在出口后的生产率提高。 5、民营化中国国有企业改革的主要成效之一，就是大量的国有企业进行了转制，即从百分之百的国有企业变成了国有控股企业或者民营企业。这一点明显地反映在国有工业企业的实收资本成份变化上。Tong（2009）利用1998－2003 年的工业企业数据，发现市场竞争的加剧、 FDI 集中度的上升以及预算约束的硬化是国企民营化的主要动因，而且绩效相对好的国企更有可能民营化。Bai 等（2009）研究了国企民营化的影响，发现民营化增加了销售额和劳动生产率，而这主要是通过减少管理费用来实现的。Dougherty 等（2007）发现，民营化通过提高企业的赢利能力和生产的地区专业化水平提高了企业的生产率。Lu 等（2010）发现，集体企业的私有化导致了销售成本的上升，但是也导致了管理费用的下降。 6、公司金融由于中国工业企业数据库包含了丰富的财务指标，因此很多学者用它研究企业的投资、融资和避税行为。Cai 和 Liu（2009）提出了一个有趣的问题：竞争是否会加剧公司规避所得税？他们识别避税程度的方式是，比较企业报告的利润和根据会计规则计算的利润之间的差额。使用 2000－2005 的工业企业数据，他们发现竞争会加剧企业的避税行为。Cull 等（2009）认为，中国的银行贷款（loan）和商业信用（trade credit）之间存在一种替代关系，业绩差的国企会通过商业信用将银行贷款再配置给企业客户，而业绩好的民营企业比业绩差的民营企业更有可能扩展商业信用。余明桂和潘红波（2010）利用2004－2007 年的工业企业数据发现，企业（特别是私有企业）会将授予客户的商业信用作为产品市场竞争的手段，这验证了商业信用的竞争假说。Guariglia 等（2011）发现，民营企业的内部融资（现金流/ 总资产）是企业增长的重要约束条件，而国有企业则不受此类约束。 7、产业集聚利用企业层面的数据，我们可以得到行业或地区层面的加总数据，这可以反映中国工业 5 本文发表于《世界经济》2012 年第5 期的产业集聚现象。使用1998－2005 年的制造业企业数据，Lu 和Tao（2009）考察了中国制造业集聚（用EG 指数衡量）的决定因素，发现地方保护主义（国有企业的雇佣比例）是阻碍产业地区集聚的主要因素。另外一些学者考察了产业集聚对企业的影响。Li 等（2011）发现产业集聚对企业规模有显着的正面影响。Lin 等（2011）发现，产业集聚和企业生产率之间存在一种倒U 型关系。Yang 和He（2011）发现贸易通过信息和分工影转载仅供参考，版权属于原作者。祝你愉快，满意请采纳哦

聂辉华工业企业数据库

与聂辉华工业企业数据库相关的内容