① 爬虫怎么爬取js动态生成的数据
我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。
1、有些页面元素被隐藏起来了->换selector解决
2、有些数据保存在js/json对象中->截取对应的串,分析解决
3、通过api接口调用->伪造请求获得数据
还有一个终极方法
4、使用phantomjs或者casperjs这种headless浏览器
② 怎样使用scrapy爬取js动态生成的数据
解决方案:
利用第三方中间件来提供JS渲染服务: scrapy-splash 等。
利用webkit或者基于webkit库
Splash是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器,Splash是用Python实现的,同时使用Twisted和QT。Twisted(QT)用来让服务具有异步处理能力,以发挥webkit的并发能力。
下面就来讲一下如何使用scrapy-splash:
利用pip安装scrapy-splash库:
$ pip install scrapy-splash
scrapy-splash使用的是Splash HTTP API, 所以需要一个splash instance,一般采用docker运行splash,所以需要安装docker。
安装docker, 安装好后运行docker。
拉取镜像(pull the image):
$ docker pull scrapinghub/splash
用docker运行scrapinghub/splash:
$ docker run -p 8050:8050 scrapinghub/splash
配置splash服务(以下操作全部在settings.py):
1)添加splash服务器地址:
SPLASH_URL = 'http //localhost:8050'
2)将splash middleware添加到DOWNLOADER_MIDDLEWARE中:
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
3)Enable SplashDeplicateArgsMiddleware:
SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeplicateArgsMiddleware': 100,
}
4)Set a custom DUPEFILTER_CLASS:
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
5)a custom cache storage backend:
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
例子
获取HTML内容:
import scrapy
from scrapy_splash import SplashRequest
class MySpider(scrapy.Spider):
start_urls = ["http //example com", "http //example com/foo"]
def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url, self.parse, args={'wait': 0.5})
def parse(self, response):
# response.body is a result of render.html call; it
# contains HTML processed by a browser.
# ...
③ 怎么把网页上的js脚本拿下来自己用
不明白你意思,一般浏览网页后会在C:\Documents and Settings\administrator33\Local Settings\Temporary Internet Files文件夹里面留下大量的上网记录这里面就什么文件都有,有图片,音乐,视频,txt纯文本,vbs脚本文件和js脚本文件你自己找吧
④ 如何爬取JS动态生成的数据
String url = try { WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10); //设置webClient的相关参数 webClient.getOptions().setJavaScriptEnabled(true); webClient.getOptions().setCssEnabled(false); webClient.setAjaxController(new ()); //webClient.getOptions().setTimeout(50000); webClient.getOptions().(false); //模拟浏览器打开一个目标网址 HtmlPage rootPage = webClient.getPage(url); System.out.println("为了获取js执行的数据 线程开始沉睡等待"); Thread.sleep(3000);//主要是这个线程的等待 因为js加载也是需要时间的 System.out.println("线程结束沉睡"); String html = rootPage.asText(); System.out.println(html);} catch (Exception e) {}
⑤ 如何用Python爬虫抓取JS动态筛选内容
打开浏览器,以google chrome为例,输入你上面的网址。
然后按F12打开调试窗口,然后尝试勾选左边某一个选项,马上可以看到右边的调试窗口有东西输出。
找到第一个输出的行,点击header,可以看到每一个都是用的post方法。
所以只需要构造相应的header并post上去,就可以得到你想要的数据了。
而这个发放返回的是json数据,然后编码成dict格式 提取出数据就可以了。
⑥ 如何用python爬取js动态生成内容的页面
抓取js动态生成的内容的页面有两种基本的解决方案
1用dryscrape库动态抓取页面
js脚本是通过浏览器来执行并返回信息的,所以,抓取js执行后的页面,一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎,python提供了许多库可以调用这个引擎,dryscrape便是其中之一,它调用webkit引擎来处理包含js等的网页!
2 selenium web测试框架
selenium是一个web测试框架,它允许调用本地的浏览器引擎发送网页请求,所以,它同样可以实现抓取页面的要求。
⑦ 如何用JS获取外部脚本的文件内容
您需要的功能可以利用AJAX来实现。下面是我写的代码读取一个文件并显示出来,供您参考。
<!doctypehtml>
<html>
<head>
<metacharset="utf-8">
<title>使用AJAX读取外部文件</title>
</head>
<body>
<divid="txt">外部文件内容</div>
<script>
if(window.ActiveXObject)//windows系统
xmlHttp=newActiveXObject("Microsoft.XMLHTTP");
elseif(window.XMLHttpRequest)//其它系统,及非IE6系统
xmlHttp=newXMLHttpRequest();
xmlHttp.onreadystatechange=Callback;
xmlHttp.open("GET","mytxt.txt",true);//读取mytxt.txt内容
xmlHttp.send(null);
functionCallback()
{
if(xmlHttp.readyState==4){
if(xmlHttp.status==200){
xml=xmlHttp.responseText;//读取返回值即文件内容
document.getElementById("txt").innerText=xml;//在当前页面显示文件内容
}
}
}
</script>
</body>
</html>
⑧ 如何爬取网页中js动态生成的数据
Stringurl="http://xinjinqiao.tprtc.com/admin/main/flrpro.do";
try{
WebClientwebClient=newWebClient(BrowserVersion.FIREFOX_10);
//设置webClient的相关参数
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setCssEnabled(false);
webClient.setAjaxController(());
//webClient.getOptions().setTimeout(50000);
webClient.getOptions().(false);
//模拟浏览器打开一个目标网址
HtmlPagerootPage=webClient.getPage(url);
System.out.println("为了获取js执行的数据线程开始沉睡等待");
Thread.sleep(3000);//主要是这个线程的等待因为js加载也是需要时间的
System.out.println("线程结束沉睡");
Stringhtml=rootPage.asText();
System.out.println(html);
}catch(Exceptione){
}
⑨ 用js脚本怎么读取excel表格指定列的内容,然后写入到txt里面
楼主解决了吗 我没有查到方法
⑩ 爬虫怎么爬取js后面加载的数据
推荐个很好用的软件,我也是一直在用的,就是前嗅的ForeSpider软件,
他有自己编写的脚本语言,网上通过js生成的内容都可以写几行脚本就可以采集数据了!!!!
我是一直用过很多的采集软件,最后选择的前嗅的软件,ForeSpider这款软件是可视化的操作。简单配置几步就可以采集。如果网站比较复杂,这个软件自带爬虫脚本语言,通过写几行脚本,就可以采集所有的公开数据。
软件还自带免费的数据库,数据采集直接存入数据库,也可以导出成excel文件。
如果自己不想配置,前嗅可以配置采集模板,我的模板就是从前嗅购买的。
另外他们公司不光是软件好用,还有自己的数据分析系统,直接采集完数据后入库,ForeSpider内部集成了数据挖掘的功能,可以快速进行聚类分类、统计分析等,采集结果入库后就可以形成分析报表。
最主要的是他采集速度非常快,我之前用八爪鱼的软件,开服务器采,用了一个月采了100万条,后来我用ForeSpider。笔记本采的,一天就好几百万条。
这些都是我一直用前嗅的经验心得,你不妨试试。
建议你可以下载一个免费版试一试,免费版不限制功能,没有到期时间。