社工庫資料庫共享平台_社工庫是什麼東西國家能制止嗎

『壹』社工庫怎麼進啊

需要翻薔軟體。
Spokeo成立於2006年，由一群斯坦福大學畢業生，包括CEOHarrisonTang、CTOMikeDaly和CIOEricLiang。作為社交媒體聚合器創建。在早期，社交媒體初創公司只有一打，Spokeo將所有用戶聯系人的帖子合並到一個提要中。事實證明，這種最初的商業模式難以貨幣化，而Facebook的崛起使其占據主導地位基本上是多餘的。
無論您使用什麼信息進行搜索姓名、街道或電子郵件地址、在線用戶名或電話號碼——您只需在搜索框中輸入即可。Spokeo的專有搜索演算法將識別您輸入的信息，並自動從其資料庫中提取信息。您還可以單擊鏈接轉到特定的搜索類型電話號碼、地址等，但這是可選的。

『貳』個人信息在社工庫意味著什麼

意味著個人全部信息面臨泄露風險。
社工庫是指社會工程學資料庫，存儲了大量的個人信息，如姓名、身份證號、各種平台的賬號、密碼等，是提供人肉搜索者和信息商販的斂財工具。
注意事項：盡量少使用同一個密碼或密碼關鍵詞，輸入密碼前切換至信任的輸入平台，注冊多個郵箱，使用不同郵箱注冊其他平台賬號，切斷各個平台之間的聯系等。

『叄』社工庫免費查詢只能一次嗎

不是。社工庫部分數據是可以永久免費查詢的。但是如果涉及隱私問題則不能進行查詢。社工庫是黑客與大數據方式進行結合的一種產物，黑客們將泄漏的用戶數據整合分析，然後集中歸檔的一個地方。社工庫是用各大網站用戶的資料資料庫搭建的資料庫查詢平台。

『肆』如何用Solr搭建大數據查詢平台

0×00 開頭照例扯淡

自從各種脫褲門事件開始層出不窮，在下就學乖了，各個地方的密碼全都改成不一樣的，重要帳號的密碼定期更換，生怕被人社出祖宗十八代的我，甚至開始用起了假名字，我給自己起一新網名地興才地，這個看起來還不錯的名字，其實是我們家鄉罵人土話，意思是腦殘人士…. -_-|||額好吧，反正是假的，不要在意這些細節。

這只是名，至於姓氏么，每個帳號的注冊資料那裡，照著百家姓上趙錢孫李周吳鄭王的依次往下排，什麼張興才、李興才、王興才……於是也不知道我這樣地興才地了多久，終於有一天，我接到一個陌生電話：您好，請問是馬興才先生嗎?

好么，該來的終於還是來了，於是按名索驥，得知某某網站我用了這個名字，然後通過各種途徑找，果然，那破站被脫褲子了。
果斷Down了那個褲子，然後就一發不可收拾，走上了收藏褲子的不歸路，直到有一天，我發現收藏已經非常豐富了，粗略估計得好幾十億條數據，拍腦袋一想，這不能光收藏啊，我也搭個社工庫用吧……

0×01 介紹

社工庫怎麼搭呢，這種海量數據的東西，並不是簡單的用mysql建個庫，然後做個php查詢select * from sgk where username like 『%xxxxx%』這樣就能完事的，也不是某些幼稚騷年想的隨便找個4g內存，amd雙核的破電腦就可以帶起來的，上面這樣的語句和系統配置，真要用於社工庫查詢，查一條記錄恐怕得半小時。好在這個問題早就被一種叫做全文搜索引擎的東西解決了，更好的消息是，全文搜索引擎大部分都是開源的，不需要花錢。

目前網上已經搭建好的社工庫，大部分是mysql+coreseek+php架構，coreseek基於sphinx，是一款優秀的全文搜索引擎，但缺點是比較輕量級，一旦數據量過數億，就會有些力不從心，並且搭建集群做分布式性能並不理想，如果要考慮以後數據量越來越大的情況，還是得用其他方案，為此我使用了solr。

Solr的基礎是著名的Lucene框架，基於java，通過jdbc介面可以導入各種資料庫和各種格式的數據，非常適合開發企業級的海量數據搜索平台，並且提供完善的solr cloud集群功能，更重要的是，solr的數據查詢完全基於http，可以通過簡單的post參數，返回json,xml,php,python,ruby,csv等多種格式。

以前的solr，本質上是一組servlet，必須放進Tomcat才能運行，從solr5開始，它已經自帶了jetty，配置的好，完全可以獨立使用，並且應付大量並發請求，具體的架構我們後面會講到，現在先來進行solr的安裝配置。

0×02 安裝和配置

以下是我整個搭建和測試過程所用的硬體和軟體平台，本文所有內容均在此平台上完成：

軟體配置: solr5.5,mysql5.7,jdk8,Tomcat8 Windows10/Ubuntu14.04 LTS

硬體配置: i7 4770k,16G DDR3,2T西數黑盤

2.1 mysql資料庫

Mysql資料庫的安裝和配置我這里不再贅述，只提一點，對於社工庫這種查詢任務遠遠多於插入和更新的應用來說，最好還是使用MyISAM引擎。
搭建好資料庫後，新建一個庫，名為newsgk，然後創建一個表命名為b41sgk,結構如下：

id bigint 主鍵自動增長

username varchar 用戶名

email varchar 郵箱

password varchar 密碼

salt varchar 密碼中的鹽或者第二密碼

ip varchar ip、住址、電話等其他資料

site varchar 資料庫的來源站點

接下來就是把收集的各種褲子全部導入這個表了，這里推薦使用navicat，它可以支持各種格式的導入，具體過程相當的枯燥乏味,需要很多的耐心，這里就不再廢話了，列位看官自己去搞就是了，目前我初步導入的數據量大約是10億條。

2.2 Solr的搭建和配置

首先下載solr：
$ wget

解壓縮：
$ tar zxvf solr-5.5.0.tgz

安裝jdk8：
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer
$ sudo apt-get install oracle-java8-set-default

因為是java跨平台的，Windows下和linux下solr是同一個壓縮包，windows下jdk的安裝這里不再說明。

進入解壓縮後的solr文件夾的bin目錄，solr.cmd和solr分別是windows和linux下的啟動腳本：

因為社工庫是海量大數據，而jvm默認只使用512m的內存，這遠遠不夠，所以我們需要修改，打開solr.in.sh文件，找到這一行：

SOLR_HEAP=地512m地

依據你的數據量，把它修改成更高，我這里改成4G，改完保存. 在windows下略有不同，需要修改solr.in.cmd文件中的這一行：

set SOLR_JAVA_MEM=-Xms512m -Xmx512m

同樣把兩個512m都修改成4G。

Solr的啟動，重啟和停止命令分別是：
$ ./solr start
$ ./solr restart –p 8983
$ ./solr stop –all

在linux下還可以通過install_solr_service.sh腳本把solr安裝為服務，開機後台自動運行。

Solr安裝完成，現在我們需要從mysql導入數據，導入前，我們需要先創建一個core，core是solr的特有概念，每個core是一個查詢、數據,、索引等的集合體，你可以把它想像成一個獨立資料庫，我們創建一個新core：

在solr-5.5.0/server/solr子目錄下面建立一個新文件夾，命名為solr_mysql，這個是core的名稱，在下面創建兩個子目錄conf和data，把solr-5.5.0/solr-5.5.0/example/example-DIH/solr/db/conf下面的所有文件全部拷貝到我們創建的conf目錄中.接下來的配置主要涉及到三個文件， solrconfig.xml， schema.xml和db-data-config.xml。

首先打開db-data-config.xml，修改為以下內容：
<dataConfig>
<dataSource name="sgk" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://127.0.0.1:3306/newsgk" user="root" password="password" batchSize="-1" />
<document name="mysgk">
<entity name="b41sgk" pk="id" query="select * from b41sgk">
<field column="id" name="id"/>
<field column="username" name="username"/>
<field column="email" name="email"/>
<field column="password" name="password"/>
<field column="salt" name="salt"/>
<field column="ip" name="ip"/>
<field column="site" name="site"/>
</entity>
</document>
</dataConfig>

這個文件是負責配置導入數據源的，請按照mysql實際的設置修改datasource的內容，下面entity的內容必須嚴格按照mysql中社工庫表的結構填寫，列名要和資料庫中的完全一樣。

然後打開solrconfig.xml，先找到這一段：
<schemaFactory class="ManagedIndexSchemaFactory">
<bool name="mutable">true</bool>
<str name="managedSchemaResourceName">managed-schema</str>
</schemaFactory>

把它全部注釋掉，加上一行，改成這樣：

<schemaFactory class="ClassicIndexSchemaFactory"/>

這是因為solr5 以上默認使用managed-schema管理schema，需要更改為可以手動修改。

然後我們還需要關閉suggest，它提供搜索智能提示，在社工庫中我們用不到這樣的功能，重要的是，suggest會嚴重的拖慢solr的啟動速度,在十幾億數據的情況下，開啟suggest可能會導致solr啟動載入core長達幾個小時!

同樣在solrconfig.xml中，找到這一段：

<searchComponent name="suggest" class="solr.SuggestComponent">
<lst name="suggester">
<str name="name">mySuggester</str>
<str name="lookupImpl">FuzzyLookupFactory</str> 
<str name="dictionaryImpl">DocumentDictionaryFactory</str> 
<str name="field">cat</str>
<str name="weightField">price</str>
<str name="suggestAnalyzerFieldType">string</str>
</lst>
</searchComponent>
<requestHandler name="/suggest" class="solr.SearchHandler" startup="lazy">
<lst name="defaults">
<str name="suggest">true</str>
<str name="suggest.count">10</str>
</lst>
<arr name="components">
<str>suggest</str>
</arr>
</requestHandler>

把這些全部刪除，然後保存solrconfig.xml文件。

接下來把managed-schema拷貝一份，重命名為schema.xml (原文件不要刪除)，打開並找到以下位置：

只保留_version_和_root_節點，然後把所有的field，dynamicField和Field全部刪除，添加以下的部分：
<field name="id" type="int" indexed="true" stored="true" required="true" multiValued="false" />
<field name="username" type="text_ik" indexed="true" stored="true"/>
<field name="email" type="text_ik" indexed="true" stored="true"/>
<field name="password" type="text_general" indexed="true" stored="true"/>
<field name="salt" type="text_general" indexed="true" stored="true"/>
<field name="ip" type="text_general" indexed="true" stored="true"/>
<field name="site" type="text_general" indexed="true" stored="true"/>
<field name="keyword" type="text_ik" indexed="true" stored="false" multiValued="true"/>

<Field source="username" dest="keyword"/>
<Field source="email" dest="keyword"/>
<uniqueKey>id</uniqueKey>

這里的uniqueKey是配置文件中原有的，用來指定索引欄位，必須保留。新建了一個欄位名為keyword，它的用途是聯合查詢，即當需要同時以多個欄位做關鍵字查詢時，可以用這一個欄位名代替，增加查詢效率，下面的Field即用來指定復制哪些欄位到keyword。注意keyword這樣的欄位，後面的multiValued屬性必須為true。

username和email以及keyword這三個欄位，用來檢索查詢關鍵字，它們的類型我們指定為text_ik，這是一個我們創造的類型，因為solr雖然內置中文分詞，但效果並不好，我們需要添加IKAnalyzer中文分詞引擎來查詢中文。在下載IKAnalyzer for solr5的源碼包，然後使用Maven編譯，得到一個文件IKAnalyzer-5.0.jar，把它放入solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目錄中，然後在solrconfig.xml的fieldType部分加入以下內容：
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

保存後，core的配置就算完成了，不過要導入mysql數據，我們還需要在mysql網站上下載mysql-connector-java-bin.jar庫文件，連同solr-5.5.0/dist目錄下面的solr-dataimporthandler-5.5.0.jar，solr-dataimporthandler-extras-5.5.0.jar兩個文件，全部拷貝到solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目錄中，然後重啟solr，就可以開始數據導入工作了。

『伍』社工庫獵魔是什麼

在資料庫查詢相關數據。社工庫獵魔是在黑客們的資料庫中查詢自己需要的數據。社工庫是黑客與大數據方式進行結合的一種產物，黑客們將泄漏的用戶數據整合分析，然後集中歸檔的一個地方。獵魔是指通過姓名，地區，sfz號中的某幾位，從bot的資料庫中扒出符合條件的數據。

『陸』社工庫是什麼東西國家能制止嗎

社工庫是黑客用來記錄攻擊手段和方法的資料庫，國家可以制止。
對於社工庫只要不觸犯到國家法律法規，國家是不會制止的。社工庫是一個黑客們將泄漏的用戶數據整合分析，然後集中歸檔的一個地方。

『柒』什麼是社工庫高級查詢

社工庫高級查詢是通過社工手段得到的大量泄漏信息所形成的高級資料庫查詢功能。
社工是社會工程學的簡稱，經過多年的應用發展，社會工程學逐漸產生出了分支學科，如公安社會工程學（簡稱公安社工學）和網路社會工程學。社工庫就是通過社工手段得到的大量泄漏信息所形成的資料庫，這些數據有時能對偵查起到關鍵作用，所以，利用社工庫也是我們應該學習和發展的手段和技術。

『捌』社工庫查詢犯法嗎

法律分析：由於社工庫掌握眾多用戶的隱私數據，所以社工庫網站大多是非法的，社工庫查詢自然也是違法的。社工意思就是社會工程，在黑客圈指一種黑客攻擊以獲取情報和信息的方法。網上的「人肉搜索」就是對社會工程的一種應用。而社工庫就是一個數據資料集合庫，各大網站用的資料數據搭建的資料庫查詢平台。

法律依據：《中華人民共和國刑法》第二百五十三條違反國家有關規定，向他人出售或者提供公民個人信息，情節嚴重的，處三年以下有期徒刑或者拘役，並處或者單處罰金;情節特別嚴重的，處三年以上七年以下有期徒刑，並處罰金。

違反國家有關規定，將在履行職責或者提供服務過程中獲得的公民個人信息，出售或者提供給他人的，依照前款的規定從重處罰。

竊取或者以其他方法非法獲取公民個人信息的，依照第一款的規定處罰。

單位犯前三款罪的，對單位判處罰金，並對其直接負責的主管人員和其他直接責任人員，依照各該款的規定處罰。

社工庫資料庫共享平台

與社工庫資料庫共享平台相關的內容