① 如何实现一段文本在数据库中快速关键词匹配相应数据
一条sql语句就搞定了啊。你把数据存储进数据库。关键词是一个字段,回复内容一个字段,另外还可以根据其它情况,加上优先级什么的。
用户发来信息,直接这个信息去数据库模糊查询,将返回结果返回。直接搞定。根本不需要这么复杂
子查询:
WHERE '我数据很厉害' LIKE CONCAT('%',关键字,'%')
② 中国工业企业数据库怎么获取
中国工业企业数据已成为国内外学者研究中国企业行为和绩效的主要数据之一,但是这个数据库处理起来并不容易。在正式开始之前,我们必须清楚两个概念:
1、脱敏数据:所谓脱敏之后的工业企业数据,就是指这份工业企业数据每个企业的名称、地址、电话等敏感信息已经剔除;
2、序贯匹配:将不同年份的未脱敏数据合并为一份面板数据时,需要每家企业具有唯一的企业标识码,序贯匹配的方法可以为每家企业生成唯一的标识码(除序贯匹配外还有聂辉华(2012)交叉匹配法,本文主要以序贯匹配法为例);
有了上述两个概念之后,就可以将我们获取的工业企业数据分为以下三种类型:
1、经过序贯匹配之后的未脱敏数据
2、经过序贯匹配之后的脱敏数据
3、未经过序贯匹配的未脱敏数据
首先是 经过序贯匹配之后的未脱敏数据(获取这类数据的渠道包括:EPS、中国工业企业数据查询系统),这一类型的数据未脱敏,因此可以与污染、创新、海关等数据库匹配使用,但由于数据商并没有提供序贯匹配的代码和详细方法,因此序贯匹配过程是一个黑洞;
其次是 经过序贯匹配之后的脱敏数据( 获取这类数据的渠道包括:RESSET),这一类型的数据脱敏,因此不可以与其他数据库匹配使用,并且序贯匹配过程是一个黑洞;
最后是 未经过序贯匹配的未脱敏数据(获取这类数据的渠道包括:不详 高校老师可能有),这一类型的数据未脱敏,因此可以与其他数据库匹配使用,并且这一类型数据并没有经过序贯匹配的方法为每家企业生成唯一的标识码,因此可以自己参考Brandt et al.(2012)等方法进行匹配,避免序贯匹配过程的黑洞;