❶ 如何用 Python 实现 Web 抓取
Web 抓取的定义
Web 抓取是抽取网络数据的过程。只要借助合适的工具,任何你能看到的数据都可以进行抽取。在本文中,我们将重点介绍自动化抽取过程的程序,帮助你在较短时间内收集大量数据。除了笔者前文提到的用例,抓取技术的用途还包括:SEO 追踪、工作追踪、新闻分析以及笔者的最爱——社交媒体的情感分析!
一点提醒
在开启 Web 抓取的探险之前,请确保自己了解相关的法律问题。许多网站在其服务条款中明确禁止对其内容进行抓取。例如,Medium 网站就写道:“遵照网站 robots.txt 文件中的规定进行的爬取操作(Crawling)是可接受的,但是我们禁止抓取(Scraping)操作。”对不允许抓取的网站进行抓取可能会使你进入他们的黑名单!与任何工具一样,Web 抓取也可能用于复制网站内容之类的不良目的。此外,由 Web 抓取引起的法律诉讼也不在少数。
设置代码
在充分了解小心行事的必要之后,让我们开始学习 Web 抓取。其实,Web 抓取可以通过任何编程语言实现,在不久之前,我们使用 Node 实现过。在本文中,考虑到其简洁性与丰富的包支持,我们将使用 Python 实现抓取程序。
Web 抓取的基本过程
当你打开网络中的某个站点时,就会下载其 HTML 代码,由你的 web 浏览器对其进行分析与展示。该 HTML 代码包含了你所看到的所有信息。因此,通过分析 HTML 代码就能得到所需信息(比如价格)。你可以使用正则表达式在数据海洋中搜索你需要的信息,也可以使用函数库来解释 HTML,同样也能得到需要数据。
在 Python 中,我们将使用一个名为靓汤(Beautiful Soup)的模块对 HTML 数据进行分析。你可以借助 pip 之类的安装程序安装之,运行如下代码即可:
pip install beautifulsoup4
或者,你也可以根据源码进行构建。在该模块的文档说明页,可以看到详细的安装步骤。
安装完成之后,我们大致会遵循以下步骤实现 web 抓取:
向 URL 发送请求
接收响应
分析响应以寻找所需数据
作为演示,我们将使用笔者的博客 http://dada.theblogbowl.in/. 作为目标 URL。
前两个步骤相对简单,可以这样完成:
from urllib import urlopen#Sending the http requestwebpage = urlopen('http://my_website.com/').read()
接下来,将响应传给之前安装的模块:
from bs4 import BeautifulSoup#making the soup! yummy ;)soup = BeautifulSoup(webpage, "html5lib")
请注意,此处我们选择了 html5lib 作为解析器。根据 BeautifulSoup 的文档,你也可以为其选择不同的解析器。
解析 HTML
在将 HTML 传给 BeautifulSoup 之后,我们可以尝试一些指令。譬如,检查 HTML 标记代码是否正确,可以验证该页面的标题(在 Python 解释器中):
>>> soup.title<title>Transcendental Tech Talk</title>>>> soup.title.text
u'Transcendental Tech Talk'
>>>
接下来,开始抽取页面中的特定元素。譬如,我想抽取博客中文章标题的列表。为此,我需要分析 HTML 的结构,这一点可以借助 Chrome 检查器完成。其他浏览器也提供了类似的工具。
使用 Chrome 检查器检查某个页面的 HTML 结构
如你所见,所有文章标题都带有 h3 标签与两个类属性:post-title 与 entry-title 类。因此,用 post-title类搜索所有 h3 元素就能得到该页的文章标题列表。在此例中,我们使用 BeautifulSoup 提供的 find_all 函数,并通过 class_ 参数确定所需的类:
>>> titles = soup.find_all('h3', class_ = 'post-title') #Getting all titles>>> titles[0].textu'\nKolkata #BergerXP IndiBlogger meet, Marketing Insights, and some Blogging Tips\n'>>>
只通过 post-title 类进行条目搜索应该可以得到相同的结果:
>>> titles = soup.find_all(class_ = 'post-title') #Getting all items with class post-title>>> titles[0].textu'\nKolkata #BergerXP
IndiBlogger meet, Marketing Insights, and some Blogging Tips\n'>>>
❷ Python2、3均为最新版,pycharm5社区版,import web web.application().run()总是报错,请教解决方法
应该是端口被占用,或者没有指定端口的问题,你在python代码里指定端口试试。
❸ linux下python和webpy怎么搭建
基于python的web开发,这里我们使用linux为开发环境,搭建基于nginx + web.py + fastcgi
有些基本基本概念解释下,哈哈,因为我不懂
1.wsgi为Web服务器网关接口(Python Web Server Gateway Interface,缩写为WSGI)是是为Python语言定义的Web服务器和Web应用程序或框架之间的一种简单而通用的接口。自从WSGI被开发出来以后,许多其它语言中也出现了类似接口
2.uwsgi,另一种python定义的web服务器和web应用的接口
3.REST服务,REST(Representational State Transfer表述性状态转移)是一种针对网络应用的设计和开发方式,可以降低开发的复杂性,提高系统的可伸缩性。
4.CRUD是指在做计算处理时的增加(Create)、查询(Retrieve)(重新得到数据)、更新(Update)和删除(Delete)几个单词的首字母简写。主要被用在描述软件系统中数据库或者持久层的基本操作功能
以下内容主要来自
http://webpy.org/cookbook/fastcgi-nginx
需要的软件
nginx 0.7以上版本,我使用的是nginx 0.9.2
webpy我使用的web.py-0.37
spawn-fcgi 1.6.3
flup 1.0
nginx的配置请参看官方文档
spawn-fcgi是lighttpd的一个子项目用于多进程管理
webpy和flup安装方式为解压后运行python setup.py install
安装编写index.py
点击(此处)折叠或打开
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import web
urls = ("/.*", "hello")
app = web.application(urls, globals())
class hello:
def GET(self):
return 'Hello, world!'
if __name__ == "__main__":
web.wsgi.runwsgi = lambda func, addr=None: web.wsgi.runfcgi(func, addr)
app.run()
注意index.py需要使用命令chmod +x index.py加入可执行权限
将index.py放入/data/www(我所使用的目录你可以修改)
修改nginx.conf配置
index要加入index.py
Nginx的配置加入
点击(此处)折叠或打开
location / {
fastcgi_param REQUEST_METHOD $request_method;
fastcgi_param QUERY_STRING $query_string;
fastcgi_param CONTENT_TYPE $content_type;
fastcgi_param CONTENT_LENGTH $content_length;
fastcgi_param GATEWAY_INTERFACE CGI/1.1;
fastcgi_param SERVER_SOFTWARE nginx/$nginx_version;
fastcgi_param REMOTE_ADDR $remote_addr;
fastcgi_param REMOTE_PORT $remote_port;
fastcgi_param SERVER_ADDR $server_addr;
fastcgi_param SERVER_PORT $server_port;
fastcgi_param SERVER_NAME $server_name;
fastcgi_param SERVER_PROTOCOL $server_protocol;
fastcgi_param SCRIPT_FILENAME $fastcgi_script_name;
fastcgi_param PATH_INFO $fastcgi_script_name;
fastcgi_pass 127.0.0.1:9002;
}
使用Spawn-fcgi
spawn-fcgi -d /data/www -f /data/www/index.py -a 127.0.0.1 -p 9002
如果报错为126,说明index.py没有可执行权限
netstat -lnp | grep 9002参考是否启动成功
我运行的实际为
spawn-fcgi -d /data/www -f /data/www/index.py -a 127.0.0.1 -p 9002 -F 2
启动2个进程
启动nginx
浏览器输入地址
成功结束
❹ 初学python,练习web.py时报错了,Import filename is not supported
第一张图是完整文件吗?有没有被截断?
另外运行一下这个命令,看看输出:
python-i-c'importweb;printweb.__version__'
❺ 关于python中web.py的安装
安装命令:
pip install web.py,或者easy_install web.py
❻ python3环境下,搭建web,运行错误
Python大小写是敏感的,你的那个get大写跟小写要一致,看看里面那个get是大写的,改成小写试试看
❼ 想做Python Web 开发,需要掌握哪些技能
Python的学习内容还是比较多的,我们将学习的过程划分为4个阶段,每个阶段学习对应的内容,具体的学习顺序如下:
Python学习顺序:
①Python软件开发基础
掌握计算机的构成和工作原理
会使用Linux常用工具
熟练使用Docker的基本命令
建立Python开发环境,并使用print输出
使用Python完成字符串的各种操作
使用Python re模块进行程序设计
使用Python创建文件、访问、删除文件
掌握import 语句、From…import 语句、From…import* 语句、方法的引用、Python中的包
能够使用Python面向对象方法开发软件
能够自己建立数据库,表,并进行基本数据库操作
掌握非关系数据库MongoDB的使用,掌握Redis开发
能够独立完成TCP/UDP服务端客户端软件开发,能够实现ftp、http服务器,开发邮件软件
能开发多进程、多线程软件
能够独立完成后端软件开发,深入理解Python开发后端的精髓
能够独立完成前端软件开发,并和后端结合,熟练掌握使用Python进行全站Web开发的技巧
能够使用Python熟练编写爬虫软件
能够熟练使用Python库进行数据分析
招聘网站Python招聘职位数据爬取分析
掌握使用Python开源人工智能框架进行人工智能软件开发、语音识别、人脸识别
掌握基本设计模式、常用算法
掌握软件工程、项目管理、项目文档、软件测试调优的基本方法
②Python软件开发进阶
③Python全栈式WEB工程师
④Python多领域开发
互联网行业目前还是最热门的行业之一,学习IT技能之后足够优秀是有机会进入腾讯、阿里、网易等互联网大厂高薪就业的,发展前景非常好,普通人也可以学习。
想要系统学习,你可以考察对比一下开设有相关专业的热门学校,好的学校拥有根据当下企业需求自主研发课程的能力,中博软件学院、南京课工场、南京北大青鸟等开设python专业的学校都是不错的,建议实地考察对比一下。
祝你学有所成,望采纳。
❽ python web.py has no attribute 'application'
这是模块名冲突导致的。
你自己的文件不要命名为web.py,可以改名为myapp.py,然后再试一下。
❾ 如何用Python关闭打开的网页
2、能够调用操作系统的命令关闭浏览器
window命令是:taskkill /F/IM 应用名称 ,如 taskkill /F /IM qq.exe 就关闭了qq
linux 命令是:killall(kill不建议使用) /F /IM qq.exe
python实现代码如下:
import os
os.system('taskkill /F /IM qq.exe')
#linux中:os.system('killall /F /IM qq.exe')
3、实现打开网页?次和关闭网页?次,以及打开?次网页后才关闭网页
python实现代码打开10次网页后关闭一次,一下实现打开最少(10*count)次:
import webBrowe as web
import time
import os
import urllib
import random
#产生随机数范围:[1,9)
count=random.randint(1,10)
#定义变量控制循环结束
j=0
while j<=count :
#定义第count次打开次数
i=0
#打开浏览器的控制
while i<=9 :
#打开浏览器
web.open_new_tab("需要打开的地址")
#控制循环次数
i+=1
#留给浏览器反应时间:0.8s
time.sleep(0.8)
else :
#杀死程序,我使用的是360浏览器打开
os.system('taskkill /F /IM 360se.exe')
#控制外层循环
j+=1
注意:本文举例是基于python 2.7版本,开发工具使用pycharm,
如果是python3.0以上版本可能不支持,部分方法需要稍微修改
❿ python作为web开发有没有前途
有很好的前景,python既可用于前端还可用于后端开发。
Python是一种计算机编程语言,是一种动态的、面向对象的脚本语言,最初设计用于编写自动脚本(shell)。越来越多地用于开发独立的、大规模的项目,因为版本不断更新,并添加了语言的新特性。
Python具有清晰而统一的设计风格,这使得Python成为一种易于阅读、可维护的语言,受到大量用户的欢迎。
设计师发展的一般指导原则是,对于一个特定的问题,只有一个最好的方法来解决它。
这在由TimPeters写的Python格言(称为TheZenofPython)里面表述为:Thereshouldbeone--andpreferablyonlyone--obviouswaytodoit。
这正好和Perl语言(另一种功能类似的高级动态语言)的中心思想TMTOWTDI(There'sMoreThanOneWayToDoIt)完全相反。
(10)importwebpython扩展阅读:
Python的设计定位:
Python的设计哲学是“优雅”、“明确”、“简单”。因此,Perl语言中“总是有多种方法来做同一件事”的理念在Python开发者中通常是难以忍受的。
Python开发者的哲学是“用一种方法,最好是只有一种方法来做一件事”。在设计Python语言时,如果面临多种选择,Python开发者一般会拒绝花俏的语法,而选择明确的没有或者很少有歧义的语法。
由于这种设计观念的差异,Python源代码通常被认为比Perl具备更好的可读性,并且能够支撑大规模的软件开发。这些准则被称为Python格言。在Python解释器内运行importthis可以获得完整的列表。
Python开发人员尽量避开不成熟或者不重要的优化。一些针对非重要部位的加快运行速度的补丁通常不会被合并到Python内。
所以很多人认为Python很慢。不过,根据二八定律,大多数程序对速度要求不高。在某些对运行速度要求很高的情况,Python设计师倾向于使用JIT技术,或者用使用C/C++语言改写这部分程序。可用的JIT技术是PyPy。
Python是一种完全面向对象的语言..函数,模块,数字,字符串都是对象..并充分支持继承、重载、派生、多继承,有利于增强源代码的重用。
Python支持重载运算符和动态类型,相对于Lisp这种传统的功能编程语言,Python只为功能设计提供了有限的支持。两个标准库(functools,itertools)在Haskell和StandardML中提供了经过验证的功能编程工具。
虽然Python可以大致归类为“脚本语言”(脚本语言),但在实践中,一些大型软件开发程序,如Zope、Mnet和BitTorrent,谷歌也广泛使用它。
Python支持者更喜欢称之为高级动态编程语言,因为“脚本语言”一般是指只做简单编程任务的语言,如shellscript,VBScript,只能处理简单的任务,不能与Python进行比较。