❶ 中國工業企業資料庫怎麼獲取
中國工業企業數據已成為國內外學者研究中國企業行為和績效的主要數據之一,但是這個資料庫處理起來並不容易。在正式開始之前,我們必須清楚兩個概念:
1、脫敏數據:所謂脫敏之後的工業企業數據,就是指這份工業企業數據每個企業的名稱、地址、電話等敏感信息已經剔除;
2、序貫匹配:將不同年份的未脫敏數據合並為一份面板數據時,需要每家企業具有唯一的企業標識碼,序貫匹配的方法可以為每家企業生成唯一的標識碼(除序貫匹配外還有聶輝華(2012)交叉匹配法,本文主要以序貫匹配法為例);
有了上述兩個概念之後,就可以將我們獲取的工業企業數據分為以下三種類型:
1、經過序貫匹配之後的未脫敏數據
2、經過序貫匹配之後的脫敏數據
3、未經過序貫匹配的未脫敏數據
首先是 經過序貫匹配之後的未脫敏數據(獲取這類數據的渠道包括:EPS、中國工業企業數據查詢系統),這一類型的數據未脫敏,因此可以與污染、創新、海關等資料庫匹配使用,但由於數據商並沒有提供序貫匹配的代碼和詳細方法,因此序貫匹配過程是一個黑洞;
其次是 經過序貫匹配之後的脫敏數據( 獲取這類數據的渠道包括:RESSET),這一類型的數據脫敏,因此不可以與其他資料庫匹配使用,並且序貫匹配過程是一個黑洞;
最後是 未經過序貫匹配的未脫敏數據(獲取這類數據的渠道包括:不詳 高校老師可能有),這一類型的數據未脫敏,因此可以與其他資料庫匹配使用,並且這一類型數據並沒有經過序貫匹配的方法為每家企業生成唯一的標識碼,因此可以自己參考Brandt et al.(2012)等方法進行匹配,避免序貫匹配過程的黑洞;
❷ 怎麼把工業企業資料庫弄成面板數據
中國工業企業資料庫的使用現狀和潛在問題 聶輝華 江艇 楊汝岱 提要:在經驗研究中,企業級的微觀數據正受到越來越多的重視。中國工業企業數據 庫成為海內外學者研究中國企業行為和績效的主要資料庫之一。但是該資料庫存在樣本匹配 混亂、變數大小異常、測度誤差明顯和變數定義模糊等嚴重問題,忽視這些問題可能會導致 研究結果錯誤。本文介紹了該資料庫的基本情況和使用現狀,指出了該資料庫的若幹缺陷, 並根據現有研究提供了若干改進建議。 關鍵詞:企業數據 工業企業 微觀計量 製造業 生產率 JEL 分類號:C33 D24 L22 L60 一、引言 數據是經驗研究的細胞,因此數據質量的好壞直接決定了經驗研究的活力。最近十多 年來,國際經濟學界越來越重視使用微觀面板數據(longitudinal micro-level data)的研究。 相對於宏觀數據或行業數據,微觀的企業數據或個體數據的優勢是非常明顯的:第一,微觀 面板數據包含了更多信息,例如企業的所有制、規模和出口等狀態,這些信息對於企業行為 研究是必不可少的;第二,微觀面板數據同時包含了時間維度和個體維度,有助於解決計量 經濟學中的個體異質性問題,更容易保證估計的一致性;第三,微觀面板數據增加了觀測值 個數,使得估計更有效率。對於產業組織理論、企業理論、公司金融、國際貿易、收入分配 和勞動供給等研究領域來說,經驗研究的數據主要就是微觀數據。 伴隨微觀計量經濟學的引入和國內外微觀資料庫的開放,中國經濟學者越來越重視微 觀數據的開發和使用,並生產了很多基於微觀數據的研究成果。一些中國資料庫甚至被全世 界各國學者使用,這一方面表明中國問題越來越受到國際經濟學界的重視,另一方面也表明 中國數據的質量得到了越來越多的認可。特別是,相當多海內外學者使用了「中國工業企業 資料庫」(Chinese instrial enterprises database) ① ,其研究成果廣泛發表在包括《American Economic Review》(如Song等,2011)、《Quarterly Journal of Economics》(如Hsieh和Klenow, 2009)和《經濟研究》等國際和國內著名學術期刊上。作為一個由中國國家統計局收集的 資料庫,它的優點是樣本大、指標多、時間長。但是,它畢竟不是一個由學術機構發布的數 據庫,因此在很多方面還不太符合學術研究的嚴格要求,其缺陷包括樣本匹配混亂、指標存 在缺失、指標大小異常、測度誤差明顯和變數定義模糊等嚴重問題。我們認為,如果研究者 沒有察覺到這些數據缺陷,並且採取有效的方法緩解或消除這些缺陷,那麼就會對經驗研究 的結果產生負面影響,甚至會導致錯誤的結果。而錯誤的結果對於理論研究和經驗研究來說, 不僅浪費了時間和精力,而且可能會產生誤導作用。鑒於此,我們認為有必要詳細地、嚴謹 地討論中國工業企業資料庫的基本情況、使用現狀,指出其存在的問題,並盡可能提供解決 問題的建議。我們希望,本文的分析不僅有助於潛在使用者了解該資料庫的研究現狀和未來 聶輝華,中國人民大學經濟學院,人大企業與組織研究中心,北京市 100872;email: [email protected]。 江艇,中國人民大學經濟學院,人大企業與組織研究中心,[email protected];楊汝岱,湘潭大學消費 研究院,[email protected]。作者感謝何帆對寫作本文提供的建議,感謝屠順傑提供的助研工作,同時 感謝兩位匿名審稿人提供的有益建議。本文的研究得到姚洋主持的國家社科基金重大項目「我國中長期經 濟增長與結構變動趨勢研究(09&ZD020)」和聶輝華、楊汝岱分別主持的教育部新世紀優秀人才項目的資 助,特此鳴謝。文責自負。 ① 一些英文文章將該資料庫名稱翻譯為「China Annual Survey of Instrial Firms」或「China Annual Survey of Manufacturing Firms」。 1 本文發表於《世界經濟》2012 年第5 期 方向,而且有助於他們更准確地使用該資料庫,從而推進相關領域的研究。當然,作為該數 據庫的使用者之一,我們並不能保證我們全面地熟悉了該資料庫,並且我們對問題的分析不 可避免地包含了一定的研究傾向。 二、資料庫基本信息 我們首先簡單地描述資料庫的基本情況。中國工業企業資料庫由國家統計局建立,它 的數據主要來自於樣本企業提交給當地統計局的季報和年報匯總。該資料庫的全稱為「全部 國有及規模以上非國有工業企業資料庫」,其樣本范圍為全部國有工業企業以及規模以上非 國有工業企業,其統計單位為企業法人。這里的「工業」統計口徑包括「國民經濟行業分類」 中的「採掘業」、「製造業」以及「電力、燃氣及水的生產和供應業」三個門類,主要是製造 業(占 90%以上)。這里的「規模以上」要求企業每年的主營業務收入(即銷售額)在 500 萬元及其以上,2011 年該標准改為2000 萬元及其以上。基於上述統計口徑的資料庫自1998 年開始採集,但多數學者使用的工業企業資料庫涉及的年份在1999-2007 年之間。由於該 資料庫的主要成份為製造業企業,在統計口徑上與其它國家的產業分類比較一致,而且一些 變數(例如資本、研發投入和出口交貨值)更容易度量,因此使用者通常析出該資料庫中的 製造業企業。製造業的統計口徑包括從農副食品加工業、食品製造業到工藝品及其它製造業、 廢棄資源和廢舊材料回收加工業等30 個大類(二位數行業),對應於國民經濟行業分類與代 碼(GB/T4754—2002)中的代碼 13-43(沒有 38)。為了保持企業樣本的完整性,同時與 現有研究具有可比性,我們以1999-2007 年全部國有及規模以上非國有工業企業作為我們 分析該資料庫的主要樣本。 1999-2007 年中國工業企業資料庫包括了 200 多萬個觀測值,每年的樣本企業數量從 1999 年的大約16 萬家逐年遞增到2007 年的大約33 萬家。 ① 在9 年樣本期內,總共有大約 55 萬家企業出現,包括上市公司。顯然,這是一個巨大的非平衡面板數據。由於企業關閉、 改制、重組等各種原因,只有4 萬6 千多家企業(約占樣本企業總數的8%)連續出現在整 個樣本期間。該資料庫樣本占據了中國工業企業的絕大部分比例。根據具有可比性的 2004 年第一次全國經濟普查年報,當年工業企業銷售額為218442.81 億元。而中國工業企業數據 庫當年全部樣本企業的銷售額為195600 億元,約佔全國的89.5%。 ② 目前,除了經濟普查 資料庫,中國工業企業資料庫是可獲得的最大的企業級資料庫。表1 描述了1999-2007 年 企業總數和國有、集體、民營、外資企業(含港澳台企業)的份額變化。可以看出,國有和 集體企業的比例在顯著減少,從1999 年的三分之二下降到2007 年的不足十分之一,而民營 企業的比例從不足 20%迅速增加到超過 70%。該表從一個側面反映了中國市場經濟結構的 劇烈變動。 表1 中國工業企業的類型、數目和比例 年份 國有 比例% 集體 比例% 民營 比例% 外資 比例% 總數 1999 52817 32.86 53507 33.29 27757 17.27 26652 16.58 160733 2000 44665 27.66 49383 30.58 39192 24.27 28240 17.49 161480 2001 36781 21.67 42528 25.06 59208 34.89 31178 18.37 169695 2002 31570 17.55 38237 21.25 75884 42.18 34208 19.02 179899 2003 25157 12.93 32334 16.62 98698 50.74 38318 19.70 194507 ① 學者們使用的該資料庫可能有幾個不同的來源,但是內容相差很小。 ② 經濟普查的工業企業銷售額來自國家統計局網站《第一次全國經濟普查主要數據公報(第二號)》,工業 企業資料庫中的工業企業銷售額來自作者計算。 2 本文發表於《世界經濟》2012 年第5 期 2004 27403 9.89 26896 9.70 165864 59.85 56976 20.56 277139 2005 18520 6.86 23875 8.84 171603 63.53 56112 20.77 270110 2006 16209 5.40 20983 6.99 202417 67.43 60585 20.18 300194 2007 11724 3.50 19355 5.78 236823 70.68 67174 20.05 335076 來源:作者根據資料庫計算 事實上,工業企業資料庫也是最全面的企業資料庫。該資料庫包括企業的兩類信息, 一類是企業的基本情況,另一類是企業的財務數據。企業的基本情況包括:法人代碼、企業 名稱、法人代表、聯系電話、郵政編碼、具體地址、所屬行業、注冊類型(所有制)、隸屬 關系、開業年份和職工人數等指標。企業的財務數據包括:流動資產、應收賬款、長期投資、 固定資產、累計折舊、無形資產、流動負債、長期負債、實收資本、主營業務收入、主營業 務成本、營業費用、管理費用、財務費用、營業利潤、利稅總額、廣告費、研究開發費、工 資總額、福利費總額、增值稅、工業中間投入、工業總產值和出口交貨值等指標。全部指標 大約為 130 個。特別是,2004 年為第一次全國經濟普查年,因此在資料庫中當年的企業指 標還包括了不同學歷(研究生、本科、大專、中專、高中、初中及以下)、不同職稱(技術 職稱和技師等)的男職工和女職工的相應數量,此外還包括了企業是否加入工會以及加入工 會的人數等其它年份所沒有的信息。 毋庸置疑,工業企業資料庫的優勢非常顯著。第一,它的樣本量非常大,涵蓋了全國 所有的國有工業企業和規模以上的非國有工業企業。9 年的觀測值總數超過200 萬個。2006 年之後,每年的樣本企業數目已經超過了30 萬個。除了普查資料庫,還沒有哪個企業數據 庫在樣本量上能與之匹敵。從統計學或計量經濟學的角度講,大樣本的優勢是降低估計的近 似偏誤,提高估計的效率。第二,它的指標非常多,包括了企業的基本情況和企業的財務數 據,能夠從多個角度比較全面地反映企業的市場進入、投資、借貸、廣告、研發、出口等行 為和企業的短期與長期經營績效,並且企業加總數據能夠反映出企業所處行業或地區的市場 結構。從產業組織理論的角度講,一旦可以獲得市場結構、企業行為和績效的數據,學者們 幾乎就可以進行任何主題的研究!公司金融、企業理論、國際貿易和產業集聚等相關領域的 研究者們也可以對該資料庫各取所需,包括進行跨專業研究。如果將該資料庫和其它資料庫 合並,那麼學者們將會發現更加豐富的研究視角。指標越多,在構建計量方程時解釋變數和 控制變數就越多,這樣可以減少遺漏變數問題。第三,它的時間序列比較長。工業企業數據 庫最早的建立年份是1998 年,目前已經更新到了2008 年,前後跨期11 年。這使得研究者 採用動態面板方法具有可行性,從而有助於反映歷史因素的作用,以及從動態的角度研究企 業和產業的演化過程。 相對而言,目前流行的其它幾個企業資料庫,例如萬得金融資料庫、色諾芬經濟金融 資料庫、國泰安上市公司資料庫,樣本企業都是上市公司,它們的指標更全面、准確,提供 指標的頻率也更高。比如,這些上市公司資料庫通常包括了主要股東持股情況、董事會成員 和高管的個人特徵以及職位變動,從而可以研究公司治理結構。另外,上市公司資料庫不僅 包含工業類上市公司,還包含了金融類和服務類上市公司,這也是工業企業資料庫所缺乏的。 此外,一些特定的調查項目也催生了企業資料庫。例如,2006 年世界銀行和國家統計局對 中國12 省的1200 多家企業進行了調查,內容涉及企業社會責任、內部管理、質量管理、勞 動管理、環境管理、市場競爭以及技術改造等方面。從1991 年到2006 年,中央統戰部和全 國工商聯陸續對全國民營企業的經營情況進行了抽樣調查,內容涉及企業基本情況、管理體 制、企業家背景以及勞資關系等方面。 ① ① 關於其它企業資料庫,感興趣的讀者可以訪問香港中文大學中國研究服務中心的網站。 3 本文發表於《世界經濟》2012 年第5 期 三、資料庫使用現狀 由於工業企業資料庫的獨特優勢,近幾年來每年都有大量的海內外經濟學者使用該數 據庫撰寫和發表論文,主題涵蓋產業組織理論、企業理論、公司金融、轉型經濟學、國際貿 易、勞動經濟學和區域經濟學等學科。下面,我們簡要介紹工業企業資料庫在上述經濟學分 支中的使用現狀。一方面,我們希望這有助於感興趣的研究人員了解人們在不同領域已經用 該資料庫做了什麼,還可以做什麼;另一方面,我們希望這有助於感興趣者了解現有研究者 是如何做這些研究的。當然,囿於篇幅和精力,我們不可能囊括所有使用該資料庫的文獻, 而是將目光聚焦於國內外的主要學術期刊或者流傳較廣的英文文章。 1、生產率 在所有使用該資料庫的相關研究文獻中,企業生產率是最受關注的主題。因為生產率 是最重要的效率度量,正如克魯格曼(Krugman,1997)所言:「生產率不是一切,但是長 期來看生產率近似於一切。」而且,對於計算企業生產率而言,工業企業資料庫提供了加總 數據所不具有的獨特優勢。利用工業企業資料庫中提供的銷售額或經濟增加值(表示Y)、 固定資產(表示K)和職工人數(表示L),採取相應的價格指數進行平減,可以計算出每個 企業的勞動生產率和全要素生產率(total factors proctivity,簡稱TFP)。鑒於勞動生產率 不能反映資本的效率,因此多數文獻以TFP作為生產率的度量。又因為製造業口徑與國際產 業分類更具可比性,所以現有文獻在計算TFP時幾乎都以製造業企業為樣本。在計算TFP時, 一些學者採取了傳統的索洛殘差法(Solow resial),例如謝千里等(2008)、Hsieh和Klenow (2009);一些學者採取了主流的OP方法(Olley和Pakes,1996),例如張傑等(2009)、余 淼傑(2010)、聶輝華和賈瑞雪(2011)、楊汝岱和熊瑞祥(2011)、Brandt等(2012);一些 學者採取了LP方法(Levinsohn和Petrin,2003),例如周黎安等(2007);一些學者採取了隨 機邊界方法(SFA),例如劉小玄和李雙傑(2008)。 ① 2、國際貿易 與生產率研究密切相關的是國際貿易,更具體地說,是考察企業出口與生產率的關系。 根據著名的企業異質性假說(Melitz,2003),生產率高的企業會傾向於選擇出口,即生產 率和出口是正相關的。工業企業資料庫包含了企業出口交貨值,但無法區分一般貿易和加工 貿易企業。利用工業企業資料庫,一些學者檢驗了這一假說對於中國企業是否成立。張傑等 (2009)利用1999-2003 年的製造業企業數據發現,出口有利於企業提高TFP,即存在出 口的「學習效應」。而李春頂(2010)利用1998-2007 年的樣本發現,出口企業的平均TFP 或勞動生產率低於內銷企業,他認為這是「生產率悖論」。此外,趙偉等(2011)發現勞動 生產率與出口選擇是負相關的,但 TFP 有時與出口選擇是正相關的。這似乎表明,利用該 資料庫文獻研究還沒有明確地支持企業異質性假說,但 Lu(2010)對此提供了一個理論解 釋。還有一些學者利用工業企業資料庫做了相關的研究。例如,余淼傑(2010)發現,貿易 自由化(降低關稅)會提高出口企業的TFP;包群等(2011)發現,製造業企業出口後對其 員工收入的改善並不明顯;楊汝岱和鄭辛迎(2011)發現行業的垂直專業化程度對企業員工 工資有差異化影響。 3、外商直接投資 中國加入 WTO 已經十周年了,外商直接投資(FDI)究竟在中國的經濟發展中扮演了 什麼樣的角色?亓朋等(2008)利用1998-2001 年的製造業企業數據,考察了外資企業對 內資企業 TFP 的溢出效應,發現在行業內溢出效應不顯著,行業間和地區間均存在正的溢 出效應。羅雨澤等(2008)使用2000 年和2002 年的製造業企業數據,發現外商投資企業對 ① 聶輝華和賈瑞雪(2011)比較了計算TFP 的幾種方法的優劣。 4 本文發表於《世界經濟》2012 年第5 期 本行業和本地區的內資企業有顯著正的溢出效應。有趣的是,路江涌(2008)利用 1998- 2005 年的製造業企業數據,發現外資企業對內資企業的溢出效應隨地理距離而遞減,在本 市內溢出效應為正,在全國范圍內為負,並且對國企為負,對民企為正。Du 等(2011)發 現,外資企業對內資企業的溢出效應主要是通過前向或後向產業關聯實現的,橫向產業關聯 沒有產生顯著的溢出效應;而且,來自港澳台的外資企業和來自外國的外資企業對內資企業 的影響也不相同。Xu 和Sheng(2011)也得到了類似的發現。Sheng 等(2011)還發現,FDI 通過後向產業關聯提高了內資企業的出口價值,通過同行業的示範效應提高了內資企業的出 口傾向。Chen 等(2011)發現,外資企業具有明顯的工資溢價,並且對內資企業的工資有 抑製作用,從而加劇了企業之間的工資不平等現象。 4、研發 技術創新是企業生產率的重要源泉之一,因此企業的研究開發(R&D)行為也備受關 注。關於 R&D 的文獻主要分為兩類:第一類是研究 R&D 或者企業創新的決定因素,主要 是檢驗「熊彼特假說」;第二類是研究企業的 R&D 對績效的影響。聶輝華等(2008)利用 2001-2005 年的製造業企業數據,分析了發現企業的研發密度(度量創新)與規模、市場 競爭之間均呈倒 U 型關系,而且盡管國有企業的研發密度比民營企業的更高,但是研發的 效率更低。Hu 等(2009)發現FDI 和企業改制對於促進企業研發密度有正面作用。陳林和 朱衛(2011)使用2005-2006 年的工業企業數據,根據國有經濟比重區分行政進入壁壘高 的行業和行政進入壁壘低的行業,發現在前一類行業中創新與市場結構之間是倒U 型關系, 「熊彼特假說」成立,但是在後一類行業中相反。Chesbrough 和Liang(2007)以製造業中 的半導體行業為例,發現市場導向會影響企業R&D 的投資回報,即全球市場導向的企業比 國內市場導向的企業能夠獲得更高的 R&D 回報。戴覓和余淼傑(2012)發現,出口前的 R&D 投資能夠促進企業在出口後的生產率提高。 5、民營化 中國國有企業改革的主要成效之一,就是大量的國有企業進行了轉制,即從百分之百 的國有企業變成了國有控股企業或者民營企業。這一點明顯地反映在國有工業企業的實收資 本成份變化上。Tong(2009)利用1998-2003 年的工業企業數據,發現市場競爭的加劇、 FDI 集中度的上升以及預算約束的硬化是國企民營化的主要動因,而且績效相對好的國企更 有可能民營化。Bai 等(2009)研究了國企民營化的影響,發現民營化增加了銷售額和勞動 生產率,而這主要是通過減少管理費用來實現的。Dougherty 等(2007)發現,民營化通過 提高企業的贏利能力和生產的地區專業化水平提高了企業的生產率。Lu 等(2010)發現, 集體企業的私有化導致了銷售成本的上升,但是也導致了管理費用的下降。 6、公司金融 由於中國工業企業資料庫包含了豐富的財務指標,因此很多學者用它研究企業的投資、 融資和避稅行為。Cai 和 Liu(2009)提出了一個有趣的問題:競爭是否會加劇公司規避所 得稅?他們識別避稅程度的方式是,比較企業報告的利潤和根據會計規則計算的利潤之間的 差額。使用 2000-2005 的工業企業數據,他們發現競爭會加劇企業的避稅行為。Cull 等 (2009)認為,中國的銀行貸款(loan)和商業信用(trade credit)之間存在一種替代關系, 業績差的國企會通過商業信用將銀行貸款再配置給企業客戶,而業績好的民營企業比業績差 的民營企業更有可能擴展商業信用。餘明桂和潘紅波(2010)利用2004-2007 年的工業企 業數據發現,企業(特別是私有企業)會將授予客戶的商業信用作為產品市場競爭的手段, 這驗證了商業信用的競爭假說。Guariglia 等(2011)發現,民營企業的內部融資(現金流/ 總資產)是企業增長的重要約束條件,而國有企業則不受此類約束。 7、產業集聚 利用企業層面的數據,我們可以得到行業或地區層面的加總數據,這可以反映中國工業 5 本文發表於《世界經濟》2012 年第5 期 的產業集聚現象。使用1998-2005 年的製造業企業數據,Lu 和Tao(2009)考察了中國制 造業集聚(用EG 指數衡量)的決定因素,發現地方保護主義(國有企業的僱傭比例)是阻 礙產業地區集聚的主要因素。另外一些學者考察了產業集聚對企業的影響。Li 等(2011) 發現產業集聚對企業規模有顯著的正面影響。Lin 等(2011)發現,產業集聚和企業生產率 之間存在一種倒U 型關系。Yang 和He(2011)發現貿易通過信息和分工影 轉載僅供參考,版權屬於原作者。祝你愉快,滿意請採納哦