爬取web资源_什么是网络爬虫

㈠关于如何在java的web应用获取服务器资源

我曾经试图在applet中通过读取服务器上的一个xml文件来创建一棵树型结构。在寻找了很多资料后，发觉这种做法好像行不通。Applet是运行在客户端的脚本，个人认为很难或者是无法获取服务器端的资源。

通过这次的学习，我掌握了几种获取服务器资源的方法。归纳如下：

1．在servlet中通过getServletContext().getRealPath(“”)可以获得服务器某个资源的真实路径，然后可以通过创建URL，或者创建IO流来获取资源。

2．在servlet中通过getServletContext().getResourceAsStream(“”)来获得资源流。

3．在jsp中通过pageContext来获得ServletContext对象pageContext.getServletContext()，然后用1,2种方法都可以获得服务器资源。

4．在一般的javaBean中，通过this.getClass().getResourceAsStream(“”)可以获得和javaBean的class文件一个目录下的资源。

㈡什么是网络爬虫

1、网络爬虫就是为其提供信息来源的程序，网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常被称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。

2、搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径。

拓展资料：

网络爬虫另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。

搜索引擎（Search Engine），例如传统的通用搜索引擎AltaVista，Yahoo！和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：

（1）不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

（2）通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

（3）万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。

（4）通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

㈢ java怎么获取web资源文件

1、一般工程中使用I/O类指定文件的绝对路径读取
FileInputStream fis = new FileInputStream("src/main/resources/zsm.properties");
ppt.load(fis);
String memAddr1 = ppt.getProperty("memAddr1");
2、Web工程中可以使用ServletContext或ClassLoader来读取
2.1、通过ServletContext来读取资源文件，文件路径是相对于web项目（如/JspServletFeature）根路径而言的。
2.2、通过ClassLoader来读取，文件路径是相对于类目录而言的（maven工程中一般为/target/classes）
示例如下
（1）文件位置
放在src目录（或其子目录）下是相对于项目根目录如JspServletFeature的路径
放在JavaResources下是相对于类目录即classes的目录
（2）代码
// 使用servletContext读取资源文件，相对于web项目的根路径(即JspServletFeature)
out.println("\n使用servletContext读取资源文件，相对于web项目的根路径(即JspServletFeature):");
readFileByServletContext(response, "FileReadFile1.properties");
readFileByServletContext(response, "/FileReadFile1.properties");
readFileByServletContext(response, "WEB-INF/classes/FileReadFile2.properties");
readFileByServletContext(response, "/WEB-INF/classes/FileReadFile2.properties");

㈣ java网络爬虫爬取web视频资源,并下载怎么做

/*这是个下载图片的爬虫，给你参考一下*/

import java.io.File;
import java.net.URL;
import java.net.URLConnection;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.Scanner;
import java.util.UUID;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class DownMM {
public static void main(String[] args) throws Exception {
//out为输出的路径,注意要以\\结尾
String out = "D:\\JSP\\pic\\java\\";
try{
File f = new File(out);
if(! f.exists()) {
f.mkdirs();
}
}catch(Exception e){
System.out.println("no");
}

String url = "http://www.mzitu.com/share/comment-page-";
Pattern reg = Pattern.compile("<img src=\"(.*?)\"");
for(int j=0, i=1; i<=10; i++){
URL uu = new URL(url+i);
URLConnection conn = uu.openConnection();
conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko");
Scanner sc = new Scanner(conn.getInputStream());
Matcher m = reg.matcher(sc.useDelimiter("\\A").next());
while(m.find()){
Files.(new URL(m.group(1)).openStream(), Paths.get(out + UUID.randomUUID() + ".jpg"));
System.out.println("已下载:"+j++);
}
}
}
}

㈤ python爬虫可以爬取网页见不到的东西吗如web后台数据库

只有在网站上显示的东西才能爬到，或者网页看不到，是网页请求的接口返回的数据
这些数据都可以拿到，其他的数据库结构是拿不到的

㈥ python爬虫怎么爬取webpack打包过页面的

动态加载的数据都是用户通过鼠标或键盘执行了一定的动作之后加载出来的。所以我们通过提供的工具调用本地的浏览器，让程序替代人的行为，滚动页面，点击按钮，提交表单等等。从而获取到想要的数据。所以我认为，使用s方法爬取动态页面的中心思想是模拟人的行为。对于简单的有限爬取任务,若可以通过代码模拟逻辑,首选这种方案,例如,在搜索引擎中,翻页这个动作是靠js触发的.模拟似乎还是很难,然后我注意到他页面的第二个,似乎后就可以翻页,试了一下果然如此.

㈦爬虫爬取web网页，管理员会知道的吗

软件？如果是app的话，有点是可以的，通过抓包工具抓包，然后在抓取。

㈧如何利用 java 多线程爬取大量网页

要自己写算法吗？
不用的话，给你个软件：webzip，这个可以满足。
自己写的话就是一个总控来控制哪些需要下载，开一些线程去下载用HttpClient下载网页，用JSoup分析网页
可以看看这里：http://www.iteye.com/problems/66170

㈨如何爬取 web 服务 api

对于初学者，用maven构建项目并不是一件容易的事，springmvc并不是MVC中的主流，但是本人觉得springmvc比struts要好用，真正做到了零配置。一次使用，就放不下了。
二.准备工作
1.Eclipse 3.7
2.maven
3.Eclipse 需要安装maven插件。url:maven - http:// download.eclipse.org/technology/m2e/releases 。安装maven-3.0.4。并且选择本地的maven，如下图：

三.构建工程
1.用maven插件构建项目框架
maven具有强大构建功能，使用maven可以构建多种不同类型的工程。这里我们构建maven-archetype-webapp类型的项目。在Eclipse->New中选择other,找到maven Project型。如下图：

在选完路径之后，我们选择构建类型，如下图：

接下来，填写工程的Group Id，Artifact Id，如下图：

这里的Group Id就是大项目的id，Arifact Id就是该项目的Id。就像一个大项目中有许多小项目组成一样。此时，我们的项目已经成型了，样子如下图：

接下来，我们要完善项目的目录，配置。

2.完善项目
首先，完善目录，增加重要的source Folder，这个不是简单的Floder,这些文件夹是会参与编译的。增加src/main/java，src/test/resources，src/test/java目录。让目录变成标准的maven结构。如下图：

接下来，改变一些配置：
让工程的JDK用本地的jdk;
让工程的字符集为UTF-8;
改变工程的目录顺序；
这些都完成之后，工程目录应该是如下的样子：

3.将工程变成web工程
此时，我们的工程还不是标准的web工程，可以在eclipse中增加web工程的特性，选择工程的Properties,选Project Facets,如下图：

这里，我们选择Dynamic Web Mole,版本选择2.4，这个版本比较通用。如下图：

此时，我们看到目录中多了一个WebContent目录，由于使用maven构建，web目录是src/main/webapp,所以我们删除WebContent目录。接下来，要配置web项目的发布目录，就是Deployment Assembly，如图：

test目录不要发布，WebContent目录没有了，所以这三项都删掉。并且增加src/main/webapp目录，和Maven Dependenices,完成之后如下图：

于是，我们的工程就完全是一个web工程了。

爬取web资源

拓展资料：

与爬取web资源相关的内容