爬取web資源_什麼是網路爬蟲

㈠關於如何在java的web應用獲取伺服器資源

我曾經試圖在applet中通過讀取伺服器上的一個xml文件來創建一棵樹型結構。在尋找了很多資料後，發覺這種做法好像行不通。Applet是運行在客戶端的腳本，個人認為很難或者是無法獲取伺服器端的資源。

通過這次的學習，我掌握了幾種獲取伺服器資源的方法。歸納如下：

1．在servlet中通過getServletContext().getRealPath(「」)可以獲得伺服器某個資源的真實路徑，然後可以通過創建URL，或者創建IO流來獲取資源。

2．在servlet中通過getServletContext().getResourceAsStream(「」)來獲得資源流。

3．在jsp中通過pageContext來獲得ServletContext對象pageContext.getServletContext()，然後用1,2種方法都可以獲得伺服器資源。

4．在一般的javaBean中，通過this.getClass().getResourceAsStream(「」)可以獲得和javaBean的class文件一個目錄下的資源。

㈡什麼是網路爬蟲

1、網路爬蟲就是為其提供信息來源的程序，網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社區中間，更經常被稱為網頁追逐者），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本，已被廣泛應用於互聯網領域。

2、搜索引擎使用網路爬蟲抓取Web網頁、文檔甚至圖片、音頻、視頻等資源，通過相應的索引技術組織這些信息，提供給搜索用戶進行查詢。網路爬蟲也為中小站點的推廣提供了有效的途徑。

拓展資料：

網路爬蟲另外一些不常使用的名字還有螞蟻，自動索引，模擬程序或者蠕蟲。隨著網路的迅速發展，萬維網成為大量信息的載體，如何有效地提取並利用這些信息成為一個巨大的挑戰。

搜索引擎（Search Engine），例如傳統的通用搜索引擎AltaVista，Yahoo！和Google等，作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如：

（1）不同領域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結果包含大量用戶不關心的網頁。

（2）通用搜索引擎的目標是盡可能大的網路覆蓋率，有限的搜索引擎伺服器資源與無限的網路數據資源之間的矛盾將進一步加深。

（3）萬維網數據形式的豐富和網路技術的不斷發展，圖片、資料庫、音頻、視頻多媒體等不同數據大量出現，通用搜索引擎往往對這些信息含量密集且具有一定結構的數據無能為力，不能很好地發現和獲取。

（4）通用搜索引擎大多提供基於關鍵字的檢索，難以支持根據語義信息提出的查詢。

㈢ java怎麼獲取web資源文件

1、一般工程中使用I/O類指定文件的絕對路徑讀取
FileInputStream fis = new FileInputStream("src/main/resources/zsm.properties");
ppt.load(fis);
String memAddr1 = ppt.getProperty("memAddr1");
2、Web工程中可以使用ServletContext或ClassLoader來讀取
2.1、通過ServletContext來讀取資源文件，文件路徑是相對於web項目（如/JspServletFeature）根路徑而言的。
2.2、通過ClassLoader來讀取，文件路徑是相對於類目錄而言的（maven工程中一般為/target/classes）
示例如下
（1）文件位置
放在src目錄（或其子目錄）下是相對於項目根目錄如JspServletFeature的路徑
放在JavaResources下是相對於類目錄即classes的目錄
（2）代碼
// 使用servletContext讀取資源文件，相對於web項目的根路徑(即JspServletFeature)
out.println("\n使用servletContext讀取資源文件，相對於web項目的根路徑(即JspServletFeature):");
readFileByServletContext(response, "FileReadFile1.properties");
readFileByServletContext(response, "/FileReadFile1.properties");
readFileByServletContext(response, "WEB-INF/classes/FileReadFile2.properties");
readFileByServletContext(response, "/WEB-INF/classes/FileReadFile2.properties");

㈣ java網路爬蟲爬取web視頻資源,並下載怎麼做

/*這是個下載圖片的爬蟲，給你參考一下*/

import java.io.File;
import java.net.URL;
import java.net.URLConnection;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.Scanner;
import java.util.UUID;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class DownMM {
public static void main(String[] args) throws Exception {
//out為輸出的路徑,注意要以\\結尾
String out = "D:\\JSP\\pic\\java\\";
try{
File f = new File(out);
if(! f.exists()) {
f.mkdirs();
}
}catch(Exception e){
System.out.println("no");
}

String url = "http://www.mzitu.com/share/comment-page-";
Pattern reg = Pattern.compile("<img src=\"(.*?)\"");
for(int j=0, i=1; i<=10; i++){
URL uu = new URL(url+i);
URLConnection conn = uu.openConnection();
conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko");
Scanner sc = new Scanner(conn.getInputStream());
Matcher m = reg.matcher(sc.useDelimiter("\\A").next());
while(m.find()){
Files.(new URL(m.group(1)).openStream(), Paths.get(out + UUID.randomUUID() + ".jpg"));
System.out.println("已下載:"+j++);
}
}
}
}

㈤ python爬蟲可以爬取網頁見不到的東西嗎如web後台資料庫

只有在網站上顯示的東西才能爬到，或者網頁看不到，是網頁請求的介面返回的數據
這些數據都可以拿到，其他的資料庫結構是拿不到的

㈥ python爬蟲怎麼爬取webpack打包過頁面的

動態載入的數據都是用戶通過滑鼠或鍵盤執行了一定的動作之後載入出來的。所以我們通過提供的工具調用本地的瀏覽器，讓程序替代人的行為，滾動頁面，點擊按鈕，提交表單等等。從而獲取到想要的數據。所以我認為，使用s方法爬取動態頁面的中心思想是模擬人的行為。對於簡單的有限爬取任務,若可以通過代碼模擬邏輯,首選這種方案,例如,在搜索引擎中,翻頁這個動作是靠js觸發的.模擬似乎還是很難,然後我注意到他頁面的第二個,似乎後就可以翻頁,試了一下果然如此.

㈦爬蟲爬取web網頁，管理員會知道的嗎

軟體？如果是app的話，有點是可以的，通過抓包工具抓包，然後在抓取。

㈧如何利用 java 多線程爬取大量網頁

要自己寫演算法嗎？
不用的話，給你個軟體：webzip，這個可以滿足。
自己寫的話就是一個總控來控制哪些需要下載，開一些線程去下載用HttpClient下載網頁，用JSoup分析網頁
可以看看這里：http://www.iteye.com/problems/66170

㈨如何爬取 web 服務 api

對於初學者，用maven構建項目並不是一件容易的事，springmvc並不是MVC中的主流，但是本人覺得springmvc比struts要好用，真正做到了零配置。一次使用，就放不下了。
二.准備工作
1.Eclipse 3.7
2.maven
3.Eclipse 需要安裝maven插件。url:maven - http:// download.eclipse.org/technology/m2e/releases 。安裝maven-3.0.4。並且選擇本地的maven，如下圖：

三.構建工程
1.用maven插件構建項目框架
maven具有強大構建功能，使用maven可以構建多種不同類型的工程。這里我們構建maven-archetype-webapp類型的項目。在Eclipse->New中選擇other,找到maven Project型。如下圖：

在選完路徑之後，我們選擇構建類型，如下圖：

接下來，填寫工程的Group Id，Artifact Id，如下圖：

這里的Group Id就是大項目的id，Arifact Id就是該項目的Id。就像一個大項目中有許多小項目組成一樣。此時，我們的項目已經成型了，樣子如下圖：

接下來，我們要完善項目的目錄，配置。

2.完善項目
首先，完善目錄，增加重要的source Folder，這個不是簡單的Floder,這些文件夾是會參與編譯的。增加src/main/java，src/test/resources，src/test/java目錄。讓目錄變成標準的maven結構。如下圖：

接下來，改變一些配置：
讓工程的JDK用本地的jdk;
讓工程的字元集為UTF-8;
改變工程的目錄順序；
這些都完成之後，工程目錄應該是如下的樣子：

3.將工程變成web工程
此時，我們的工程還不是標準的web工程，可以在eclipse中增加web工程的特性，選擇工程的Properties,選Project Facets,如下圖：

這里，我們選擇Dynamic Web Mole,版本選擇2.4，這個版本比較通用。如下圖：

此時，我們看到目錄中多了一個WebContent目錄，由於使用maven構建，web目錄是src/main/webapp,所以我們刪除WebContent目錄。接下來，要配置web項目的發布目錄，就是Deployment Assembly，如圖：

test目錄不要發布，WebContent目錄沒有了，所以這三項都刪掉。並且增加src/main/webapp目錄，和Maven Dependenices,完成之後如下圖：

於是，我們的工程就完全是一個web工程了。

爬取web資源

拓展資料：

與爬取web資源相關的內容