1. 數據分析工具有哪些 python
IPython
IPython 是一個在多種編程語言之間進行交互計算的命令行 shell,最開始是用 python 開發的,提供增強的內省,富媒體,擴展的 shell
語法,tab 補全,豐富的歷史等功能。IPython 提供了如下特性:
更強的交互 shell(基於 Qt 的終端)
一個基於瀏覽器的記事本,支持代碼,純文本,數學公式,內置圖表和其他富媒體
支持交互數據可視化和圖形界面工具
靈活,可嵌入解釋器載入到任意一個自有工程里
簡單易用,用於並行計算的高性能工具
由數據分析總監,Galvanize 專家 Nir Kaldero 提供。
GraphLab Greate 是一個 Python 庫,由 C++ 引擎支持,可以快速構建大型高性能數據產品。
這有一些關於 GraphLab Greate 的特點:
可以在您的計算機上以交互的速度分析以 T 為計量單位的數據量。
在單一平台上可以分析表格數據、曲線、文字、圖像。
最新的機器學習演算法包括深度學習,進化樹和 factorization machines 理論。
可以用 Hadoop Yarn 或者 EC2 聚類在你的筆記本或者分布系統上運行同樣的代碼。
藉助於靈活的 API 函數專注於任務或者機器學習。
在雲上用預測服務便捷地配置數據產品。
為探索和產品監測創建可視化的數據。
由 Galvanize 數據科學家 Benjamin Skrainka 提供。
Pandas
pandas 是一個開源的軟體,它具有 BSD 的開源許可,為 Python
編程語言提供高性能,易用數據結構和數據分析工具。在數據改動和數據預處理方面,Python 早已名聲顯赫,但是在數據分析與建模方面,Python
是個短板。Pands 軟體就填補了這個空白,能讓你用 Python 方便地進行你所有數據的處理,而不用轉而選擇更主流的專業語言,例如 R 語言。
整合了勁爆的 IPyton 工具包和其他的庫,它在 Python 中進行數據分析的開發環境在處理性能,速度,和兼容方面都性能卓越。Pands
不會執行重要的建模函數超出線性回歸和面板回歸;對於這些,參考 statsmodel 統計建模工具和 scikit-learn 庫。為了把 Python
打造成頂級的統計建模分析環境,我們需要進一步努力,但是我們已經奮斗在這條路上了。
由 Galvanize 專家,數據科學家 Nir Kaldero 提供。
PuLP
線性編程是一種優化,其中一個對象函數被最大程度地限制了。PuLP 是一個用 Python
編寫的線性編程模型。它能產生線性文件,能調用高度優化的求解器,GLPK,COIN CLP/CBC,CPLEX,和GUROBI,來求解這些線性問題。
由 Galvanize 數據科學家 Isaac Laughlin 提供
Matplotlib
matplotlib 是基於 Python 的
2D(數據)繪圖庫,它產生(輸出)出版級質量的圖表,用於各種列印紙質的原件格式和跨平台的互動式環境。matplotlib 既可以用在 python 腳本,
python 和 ipython 的 shell 界面 (ala MATLAB? 或 Mathematica?),web 應用伺服器,和6類 GUI
工具箱。
matplotlib 嘗試使容易事情變得更容易,使困難事情變為可能。你只需要少量幾行代碼,就可以生成圖表,直方圖,能量光譜(power
spectra),柱狀圖,errorcharts,散點圖(scatterplots)等,。
為簡化數據繪圖,pyplot 提供一個類 MATLAB 的介面界面,尤其是它與 IPython
共同使用時。對於高級用戶,你可以完全定製包括線型,字體屬性,坐標屬性等,藉助面向對象介面界面,或項 MATLAB 用戶提供類似(MATLAB)的界面。
Galvanize 公司的首席科學官 Mike Tamir 供稿。
Scikit-Learn
Scikit-Learn 是一個簡單有效地數據挖掘和數據分析工具(庫)。關於最值得一提的是,它人人可用,重復用於多種語境。它基於
NumPy,SciPy 和 mathplotlib 等構建。Scikit 採用開源的 BSD 授權協議,同時也可用於商業。Scikit-Learn
具備如下特性:
分類(Classification) – 識別鑒定一個對象屬於哪一類別
回歸(Regression) – 預測對象關聯的連續值屬性
聚類(Clustering) – 類似對象自動分組集合
降維(Dimensionality Rection) – 減少需要考慮的隨機變數數量
模型選擇(Model Selection) –比較、驗證和選擇參數和模型
預處理(Preprocessing) – 特徵提取和規范化
Galvanize 公司數據科學講師,Isaac Laughlin提供
Spark
Spark 由一個驅動程序構成,它運行用戶的 main 函數並在聚類上執行多個並行操作。Spark
最吸引人的地方在於它提供的彈性分布數據集(RDD),那是一個按照聚類的節點進行分區的元素的集合,它可以在並行計算中使用。RDDs 可以從一個 Hadoop
文件系統中的文件(或者其他的 Hadoop 支持的文件系統的文件)來創建,或者是驅動程序中其他的已經存在的標量數據集合,把它進行變換。用戶也許想要 Spark
在內存中永久保存 RDD,來通過並行操作有效地對 RDD 進行復用。最終,RDDs 無法從節點中自動復原。
Spark 中第二個吸引人的地方在並行操作中變數的共享。默認情況下,當 Spark
在並行情況下運行一個函數作為一組不同節點上的任務時,它把每一個函數中用到的變數拷貝一份送到每一任務。有時,一個變數需要被許多任務和驅動程序共享。Spark
支持兩種方式的共享變數:廣播變數,它可以用來在所有的節點上緩存數據。另一種方式是累加器,這是一種只能用作執行加法的變數,例如在計數器中和加法運算中。
2. Python編程能用在哪些方面
1、web開發:python的誕生歷史比web還要早,python是解釋型編程語言,開發效率高,非常適合進行web開發。它有上百種web開發框架,有很多成熟的模板技術,選擇python開發web應用,不但開發效率高,速度也是非常快的。常用的web開發框架有:Django、Flask、Tornado 等。
2、網路爬蟲:網路爬蟲是python非常常見的一個場景,國際上其實google在早期大量地使用Python語言作為網路爬蟲的基礎,推動python發展,以前國內很多人採集網上的內容,現在就可以用python來實現了。
3、人工智慧:人工智慧是非常火的一個方向,AI浪潮讓python語言未來充滿潛力。現在python有很多庫都是針對人工智慧的,比如numpy,
scipy做數值計算的,sklearn做機器學習的,pybrain做神經網路等。在人工智慧領域,數據分析、機器學習、神經網路、深度學習等都是主流語言。
4、數據分析:數據分析處理方面,python有非常完備的生態環境。大數據分析涉及到分布式計算、數據可視化、資料庫操作等,python都有成熟的模板可以完成其功能,對於Hadoop-MapRece和Spark,都可以直接使用Python完成計算邏輯,是非常便利的。
5、自動化運維:python對於伺服器是非常重要的,目前幾乎所有Linux發行版本中都帶有python編輯器,使用python腳本進行批量化文件部署和運行調整都成了Linux伺服器很不錯的選擇。python有很多方便的工具,比如說調控ssh/sftp用的paramiko,到監控服務用的supervisor等,讓運維變得更加簡單。
3. python能幹什麼
「python可以做:1、Web開發;2、數據科學研究;3、網路爬蟲;4、嵌入式應用開發;5、游戲開發;6、桌面應用開發。python是一種動態的、面向對象的腳本語言,有著簡單易學、速度快、易於維護等特點。」
我發現有Python主要有以下三大主要應用:
Web開發
數據科學:包括機器學習、數據分析和數據可視化
腳本
01 Web開發
Django和Flask等基於Python的Web框架最近在Web開發中非常流行。
這些Web框架可以幫助你用Python編寫伺服器端代碼(後端代碼)。這是在你的額伺服器上運行的代碼,而不是運行在用戶設備和瀏覽器的代碼(前端代碼)。
1. 為什麼需要Web框架
因為用Web框架可以更容易地構建通用後端邏輯。這包括將不同的URL映射到Python代碼塊,處理資料庫以及生成用戶在瀏覽器中看到的HTML文件。
2. 應該使用哪種Python Web框架
Django和Flask是最流行的兩種Python Web框架。如果你剛剛入門,我建議使用其中一種。
3. Django和Flask有什麼區別
Gareth Dwyer 關於這個問題有一篇出色的文章,在這里我引用幾段:
主要區別
Flask:能夠實現簡單、靈活和細致的控制。並能讓你自己決定實現方式。
Django:提供了全面的體驗:你可以獲得管理面板、資料庫介面、ORM(對象關系映射)以及開箱即用的應用程序和項目的目錄結構。
如何選擇
Flask:如果你關注的是經驗和學習的機會,或者你想更多地控制使用哪些組件,比如你想使用哪些資料庫以及如何與其進行交互。
Django:如果你關注最終產品,或者你正在研究一個簡單的應用,比如新聞網站、網店或博客,並且你希望有單一實現的方式。
4. 如何使用Python工具分析風險數據
1、引入工具–載入數據分析包
啟動IPython notebook,載入運行環境:
%matplotlib inline
import pandas as pd
from datetime import timedelta, datetime
import matplotlib.pyplot as plt
import numpy as np
2、數據准備
俗話說: 巧婦難為無米之炊。小安分析的數據主要是用戶使用代理IP訪問日誌記錄信息,要分析的原始數據以CSV的形式存儲。這里首先要介紹到pandas.read_csv這個常用的方法,它將數據讀入DataFrame
analysis_data = pd.read_csv('./honeypot_data.csv')
對的, 一行代碼就可以將全部數據讀到一個二維的表結構DataFrame變數,感覺很簡單有木有啊!!!當然了用Pandas提供的IO工具你也可以將大文件分塊讀取,再此小安測試了一下性能,完整載入約21530000萬條數據也大概只需要90秒左右,性能還是相當不錯。
3、數據管窺
一般來講,分析數據之前我們首先要對數據有一個大體上的了解,比如數據總量有多少,數據有哪些變數,數據變數的分布情況,數據重復情況,數據缺失情況,數據中異常值初步觀測等等。下面小安帶小夥伴們一起來管窺管窺這些數據。
使用shape方法查看數據行數及列數
analysis_data.shape
Out: (21524530, 22) #這是有22個維度,共計21524530條數據記的DataFrame
使用head()方法默認查看前5行數據,另外還有tail()方法是默認查看後5行,當然可以輸入參數來查看自定義行數
analysis_data.head(10)
這里可以了解到我們數據記錄有用戶使用代理IP日期,代理header信息,代理訪問域名,代理方法,源ip以及蜜罐節點信息等等。在此小安一定一定要告訴你,小安每次做數據分析時必定使用的方法–describe方法。pandas的describe()函數能對數據進行快速統計匯總:
對於數值類型數據,它會計算出每個變數: 總個數,平均值,最大值,最小值,標准差,50%分位數等等;
非數值類型數據,該方法會給出變數的: 非空值數量、unique數量(等同於資料庫中distinct方法)、最大頻數變數和最大頻數。
由head()方法我們可以發現數據中包含了數值變數、非數值變數,我們首先可以利用dtypes方法查看DataFrame中各列的數據類型,用select_dtypes方法將數據按數據類型進行分類。然後,利用describe方法返回的統計值對數據有個初步的了解:
df.select_dtypes(include=['O']).describe()
df.select_dtypes(include=['float64']).describe()
簡單的觀察上面變數每一維度統計結果,我們可以了解到大家獲取代理數據的長度平均1670個位元組左右。同時,也能發現欄位scanossubfp,scanscan_mode等存在空值等等信息。這樣我們能對數據整體上有了一個大概了解。
4、數據清洗
由於源數據通常包含一些空值甚至空列,會影響數據分析的時間和效率,在預覽了數據摘要後,需要對這些無效數據進行處理。
一般來說,移除一些空值數據可以使用dropna方法, 當你使用該方法後,檢查時發現 dropna() 之後幾乎移除了所有行的數據,一查Pandas用戶手冊,原來不加參數的情況下, dropna() 會移除所有包含空值的行。
如果你只想移除全部為空值的列,需要加上 axis 和 how 兩個參數:
analysis_data.dropna(axis=1, how='all')
另外,也可以通過dropna的參數subset移除指定列為空的數據,和設置thresh值取移除每非None數據個數小於thresh的行。
analysis_data.dropna(subset=['proxy_host', 'srcip'])
#移除proxy_host欄位或srcip欄位沒有值的行
analysis_data.dropna(thresh=10)
#移除所有行欄位中有值屬性小於10的行
5、統計分析
再對數據中的一些信息有了初步了解過後,原始數據有22個變數。從分析目的出發,我將從原始數據中挑選出局部變數進行分析。這里就要給大家介紹pandas的數據切片方法loc。
loc([startrowindex:endrowindex,[『timestampe』, 『proxy_host』, 『srcip』]])是pandas重要的切片方法,逗號前面是對行進行切片;逗號後的為列切片,也就是挑選要分析的變數。
如下,我這里選出日期,host和源IP欄位——
analysis_data = analysis_data.loc([:, [『timestampe』,'proxy_host','srcip']])
首先讓我們來看看蜜罐代理每日使用數據量,我們將數據按日統計,了解每日數據量PV,並將結果畫出趨勢圖。
daily_proxy_data = analysis_data[analysis_data.mole=='proxy']
daily_proxy_visited_count = daily_proxy_data.timestamp.value_counts().sort_index()
daily_proxy_visited_count.plot()
對數據列的丟棄,除無效值和需求規定之外,一些表自身的冗餘列也需要在這個環節清理,比如說DataFrame中的index號、類型描述等,通過對這些數據的丟棄,從而生成新的數據,能使數據容量得到有效的縮減,進而提高計算效率。
由上圖分析可知蜜罐代理使用量在6月5號,19-22號和25號這幾天呈爆炸式增長。那麼這幾天數據有情況,不正常,具體是神馬情況,不急,後面小安帶大家一起來慢慢揪出來到底是那些人(源ip) 幹了什麼「壞事」。
進一步分析, 數據有異常後,再讓我們來看看每天去重IP數據後量及其增長量。可以按天groupby後通過nunique()方法直接算出來每日去重IP數據量。
daily_proxy_data = analysis_data[analysis_data.mole=='proxy']
daily_proxy_visited_count = daily_proxy_data.groupby(['proxy_host']).srcip.nunique()
daily_proxy_visited_count.plot()
究竟大部分人(源ip)在干神馬?干神馬?干神馬?讓我們來看看被訪問次數最多host的哪些,即同一個host關聯的IP個數,為了方便我們只查看前10名熱門host。
先選出host和ip欄位,能過groupby方法來group 每個域名(host),再對每個域名的ip訪問里unique統計。
host_associate_ip = proxy_data.loc[:, ['proxy_host', 'srcip']]
grouped_host_ip = host_associate_ip.groupby(['proxy_host']).srcip.nunique()
print(grouped_host_ip.sort_values(ascending=False).head(10))
再細細去看大家到底做了啥——查看日誌數據發現原來在收集像二手車價格,工人招聘等等信息。從熱門host來看,總得來說大家使用代理主要還是獲取網路,qq,Google,Bing這類婦孺皆知網站的信息。
下面再讓我們來看看是誰用代理IP「幹事」最多,也就是看看誰的IP訪問不同host的個數最多。
host_associate_ip = proxy_data.loc[:, ['proxy_host', 'srcip']]
grouped_host_ip = host_associate_ip.groupby(['srcip'_host']).proxy_host.nunique()
print(grouped_host_ip.sort_values(ascending=False).head(10))
哦,發現目標IP為123..*.155的小夥子有大量訪問記錄, 進而查看日誌,原來他在大量收集酒店信息。 好了,這樣我們就大概能知道誰在干什麼了,再讓我們來看看他們使用proxy持續時長,誰在長時間里使用proxy。 代碼如下——
這里不給大家細說代碼了,只給出如下偽代碼。
date_ip = analysis_data.loc[:,['timestamp','srcip']]
grouped_date_ip = date_ip.groupby(['timestamp', 'srcip'])
#計算每個源ip(srcip)的訪問日期
all_srcip_ration_times = ...
#算出最長連續日期天數
ration_date_cnt = count_date(all_srcip_ration_times)
好了,到此我也就初略的知道那些人做什麼,誰用代理時長最長等等問題額。取出ip = 80...38的用戶使用代理ip訪問數據日誌,發現原來這個小夥子在長時間獲取搜狐images。
蜜罐在全國各地部署多個節點,再讓我們來看看每個源ip掃描蜜罐節點總個數,了解IP掃描節點覆蓋率。結果見如下:
# 每個IP掃描的IP掃描節點總個數
node = df[df.mole=='scan']
node = node.loc[:,['srcip','origin_details']]
grouped_node_count = node.groupby(['srcip']).count()
print grouped_node_count.sort_values(['origin_details'], ascending=False).head(10)
由上述兩表初步可知,一些結論:如源ip為182...205的用戶長時間對蜜罐節點進行掃描,mark危險用戶等等。
5. 圖解Python中數據分析工具包:Numpy
numpy是我學習python遇到的第一個第三方工具包,它可以讓我們快速上手數據分析。numpy提供了向量和矩陣計算和處理的大部分介面。目前很多python的基礎工具包都是基於numpy開發而來,比如 scikit-learn, SciPy, pandas, 還有 tensorflow。 numpy可以處理表格、圖像、文本等數據,極大地方便我們處理和分析數據。本文主要內容來自於Jay Alammar的一篇文章以及自己學習記錄。
原文地址: https://jalammar.github.io/visual-numpy/
使用過程中,如果希望 Numpy 能創建並初始化數組的值, Numpy 提供了 ones()、zeros() 和 random.random() 等方法。只需傳遞希望生成的元素數量(大小)即可:
還可以進行如下操作:
一般,需要數組和單個數字之間也可以進行運算操作(即向量和標量之間的運算)。比如說 data * 1.6 ,numpy利用一個叫做廣播機制(broadcasting)的概念實現了這一運算。:
我們可以通過索引對numpy數據獲取任意位置數據或者對數據切片
我們可以通過numpy自帶的函數對數據進行一些想要的聚合計算,比如min、max 和 sum ,還可以使用 mean 得到平均值,使用 prod 得到所有元素的乘積,使用 std 得到標准差等等。
上述操作不僅可以應用於單維度數據,還可以用於多維度數據{(矩陣)。
同樣可以使用ones()、zeros() 和 random.random()創建矩陣,只要寫入一個描述矩陣維數的元組即可:
numpy還可以處理更高維度的數據:
創建更高維度數據只需要在創建時,在參數中增加一個維度值即可:
根據數組中數值是否滿足條件,輸出為True或False.
希望得到滿足條件的索引,用np.where函數實現.
根據索引得到對應位置的值.
np.where也可以接受另兩個可選擇的參數a和b。當條件滿足時,輸出a,反之輸出b.
獲取數組最大值和最小值的索引可以使用np.argmax和np.argmin.
1、numpy.tofile()和numpy.fromfile()
保存為二進制格式,但是不保存數組形狀和數據類型, 即都壓縮為一維的數組,需要自己記錄數據的形狀,讀取的時候再reshape.
2、numpy.save() 和 numpy.load()
保存為二進制格式,保存數組形狀和數據類型, 不需要進行reshape
實例:
3、numpy.savetxt()和numpy.loadtxt()
np.savetxt(fname,array,fmt=』%.18e』,delimiter=None)
Parameter解釋:
array:待存入文件的數組。
fmt:寫入文件的格式
實例:
6. python數據分析是什麼
Python本身是一門編程語言,應用於Web開發、爬蟲、機器學習等多個領域,但是除了這些,Python大熱的一個學習方向——那就是Python數據分析。
在金融領域,Python成為炙手可熱的分析工具,這幾乎已經成為共識。
1.處理大量數據
我們可以使用Python,對海量數據進行處理;
2.Python可以輕松實現自動
比如你要針對本地某一文件夾下面的文件名進行批量修改,就可以用Python;
3.Python可用來做演算法模型
即使是做數據分析的,一些基礎的演算法模型還是有必要掌握的,Python可以讓你在懂一些基礎的演算法原理的情況下就能搭建一些模型,比如你可以使用聚類演算法搭建一個模型去對用戶進行分類。
7. 如何用python寫 數據分析工具
數據導入
導入本地的或者web端的CSV文件;
數據變換;
數據統計描述;
假設檢驗
單樣本t檢驗;
可視化;
創建自定義函數。
t : 浮點或數組類型
t統計量prob : 浮點或數組類型
two-tailed p-value 雙側概率值重復100次; 然後
計算出置信區間包含真實均值的百分比
數據導入
這是很關鍵的一步,為了後續的分析我們首先需要導入數據。通常來說,數據是CSV格式,就算不是,至少也可以轉換成CSV格式。在Python中,我們的操作如下:
Python
1
2
3
4
5
6
7
8
import pandas as pd
# Reading data locally
df = pd.read_csv('/Users/al-ahmadgaidasaad/Documents/d.csv')
# Reading data from web
data_url = "t/Analysis-with-Programming/master/2014/Python/Numerical-Descriptions-of-the-Data/data.csv"
df = pd.read_csv(data_url)
為了讀取本地CSV文件,我們需要pandas這個數據分析庫中的相應模塊。其中的read_csv函數能夠讀取本地和web數據。
數據變換
既然在工作空間有了數據,接下來就是數據變換。統計學家和科學家們通常會在這一步移除分析中的非必要數據。我們先看看數據:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# Head of the data
print df.head()
# OUTPUT
0 12432934148330010553
1 41589235 4287806335257
2 17871922 19551074 4544
317152 14501 3536 1960731687
4 12662385 25303315 8520
# Tail of the data
print df.tail()
# OUTPUT
74 2505 20878 3519 1973716513
7560303 40065 7062 1942261808
76 63116756 3561 1591023349
7713345 38902 2583 1109668663
78 2623 18264 3745 1678716900
對R語言程序員來說,上述操作等價於通過print(head(df))來列印數據的前6行,以及通過print(tail(df))來列印數據的後6行。當然Python中,默認列印是5行,而R則是6行。因此R的代碼head(df, n = 10),在Python中就是df.head(n = 10),列印數據尾部也是同樣道理。
在R語言中,數據列和行的名字通過colnames和rownames來分別進行提取。在Python中,我們則使用columns和index屬性來提取,如下:
Python
1
2
3
4
5
6
7
8
9
10
11
# Extracting column names
print df.columns
# OUTPUT
Index([u'Abra', u'Apayao', u'Benguet', u'Ifugao', u'Kalinga'], dtype='object')
# Extracting row names or the index
print df.index
# OUTPUT
Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78], dtype='int64')
數據轉置使用T方法,
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# Transpose data
print df.T
# OUTPUT
01 23 45 67 89
Abra1243 41581787171521266 5576 927215401039 5424
Apayao2934 92351922145012385 7452109917038138210588
Benguet148 42871955 353625307712796 24632592 1064
Ifugao3300
... 69 70 71 72 73 74 75 76 77
Abra ...12763 247059094 620913316 250560303 631113345
Apayao ...376251953235126 6335386132087840065 675638902
Benguet... 2354 4045 5987 3530 2585 3519 7062 3561 2583
Ifugao ... 9838171251894015560 774619737194221591011096
Kalinga...
78
Abra2623
Apayao 18264
Benguet 3745
Ifugao 16787
Kalinga16900
Other transformations such as sort can be done using<code>sort</code>attribute. Now let's extract a specific column. In Python, we do it using either<code>iloc</code>or<code>ix</code>attributes, but<code>ix</code>is more robust and thus I prefer it. Assuming we want the head of the first column of the data, we have
其他變換,例如排序就是用sort屬性。現在我們提取特定的某列數據。Python中,可以使用iloc或者ix屬性。但是我更喜歡用ix,因為它更穩定一些。假設我們需數據第一列的前5行,我們有:
Python
1
2
3
4
5
6
7
8
9
print df.ix[:, 0].head()
# OUTPUT
0 1243
1 4158
2 1787
317152
4 1266
Name: Abra, dtype: int64
順便提一下,Python的索引是從0開始而非1。為了取出從11到20行的前3列數據,我們有:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
print df.ix[10:20, 0:3]
# OUTPUT
AbraApayaoBenguet
109811311 2560
1127366 15093 3039
12 11001701 2382
13 7212 11001 1088
14 10481427 2847
1525679 15661 2942
16 10552191 2119
17 54376461734
18 10291183 2302
1923710 12222 2598
20 10912343 2654
上述命令相當於df.ix[10:20, ['Abra', 'Apayao', 'Benguet']]。
為了舍棄數據中的列,這里是列1(Apayao)和列2(Benguet),我們使用drop屬性,如下:
Python
1
2
3
4
5
6
7
8
9
print df.drop(df.columns[[1, 2]], axis = 1).head()
# OUTPUT
AbraIfugaoKalinga
0 1243330010553
1 4158806335257
2 17871074 4544
317152 1960731687
4 12663315 8520
axis參數告訴函數到底舍棄列還是行。如果axis等於0,那麼就舍棄行。
統計描述
下一步就是通過describe屬性,對數據的統計特性進行描述:
Python
1
2
3
4
5
6
7
8
9
10
11
12
print df.describe()
# OUTPUT
AbraApayaoBenguetIfugao Kalinga
count 79.000000 79.00000079.000000 79.000000 79.000000
mean 12874.37974716860.6455703237.39240512414.62025330446.417722
std16746.46694515448.1537941588.536429 5034.28201922245.707692
min927.000000401.000000 148.000000 1074.000000 2346.000000
25% 1524.000000 3435.5000002328.000000 8205.000000 8601.500000
50% 5790.00000010588.0000003202.00000013044.00000024494.000000
75%13330.50000033289.0000003918.50000016099.50000052510.500000
max60303.00000054625.0000008813.00000021031.00000068663.000000
假設檢驗
Python有一個很好的統計推斷包。那就是scipy裡面的stats。ttest_1samp實現了單樣本t檢驗。因此,如果我們想檢驗數據Abra列的稻穀產量均值,通過零假設,這里我們假定總體稻穀產量均值為15000,我們有:
Python
1
2
3
4
5
6
7
from scipy import stats as ss
# Perform one sample t-test using 1500 as the true mean
print ss.ttest_1samp(a = df.ix[:, 'Abra'], popmean = 15000)
# OUTPUT
(-1.1281738488299586, 0.26270472069109496)
返回下述值組成的元祖:
通過上面的輸出,看到p值是0.267遠大於α等於0.05,因此沒有充分的證據說平均稻穀產量不是150000。將這個檢驗應用到所有的變數,同樣假設均值為15000,我們有:
Python
1
2
3
4
5
6
print ss.ttest_1samp(a = df, popmean = 15000)
# OUTPUT
(array([ -1.12817385, 1.07053437, -65.81425599,-4.564575, 6.17156198]),
array([2.62704721e-01, 2.87680340e-01, 4.15643528e-70,
1.83764399e-05, 2.82461897e-08]))
第一個數組是t統計量,第二個數組則是相應的p值。
可視化
Python中有許多可視化模塊,最流行的當屬matpalotlib庫。稍加提及,我們也可選擇bokeh和seaborn模塊。之前的博文中,我已經說明了matplotlib庫中的盒須圖模塊功能。
;
Python中,程序如下:
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import numpy as np
import scipy.stats as ss
def case(n = 10, mu = 3, sigma = np.sqrt(5), p = 0.025, rep = 100):
m = np.zeros((rep, 4))
for i in range(rep):
norm = np.random.normal(loc = mu, scale = sigma, size = n)
xbar = np.mean(norm)
low = xbar - ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n))
up = xbar + ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n))
if (mu > low) & (mu < up):
rem = 1
else:
rem = 0
m[i, :] = [xbar, low, up, rem]
inside = np.sum(m[:, 3])
per = inside / rep
desc = "There are " + str(inside) + " confidence intervals that contain "
"the true mean (" + str(mu) + "), that is " + str(per) + " percent of the total CIs"
return {"Matrix": m, "Decision": desc}
上述代碼讀起來很簡單,但是循環的時候就很慢了。下面針對上述代碼進行了改進,這多虧了Python專家,看我上篇博文的15條意見吧。
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import numpy as np
import scipy.stats as ss
def case2(n = 10, mu = 3, sigma = np.sqrt(5), p = 0.025, rep = 100):
scaled_crit = ss.norm.ppf(q = 1 - p) * (sigma / np.sqrt(n))
norm = np.random.normal(loc = mu, scale = sigma, size = (rep, n))
xbar = norm.mean(1)
low = xbar - scaled_crit
up = xbar + scaled_crit
rem = (mu > low) & (mu < up)
m = np.c_[xbar, low, up, rem]
inside = np.sum(m[:, 3])
per = inside / rep
desc = "There are " + str(inside) + " confidence intervals that contain "
"the true mean (" + str(mu) + "), that is " + str(per) + " percent of the total CIs"
return {"Matrix": m, "Decision": desc}
更新
那些對於本文ipython notebook版本感興趣的,請點擊這里。這篇文章由Nuttens Claude負責轉換成ipython notebook 。
8. 為什麼用Python做數據分析
為什麼用Python做數據分析
原因如下:
1、python大量的庫為數據分析提供了完整的工具集
python擁有numpy、matplotlib、scikit-learn、pandas、ipython等工具在科學計算方面十分有優勢,尤其是pandas,在處理中型數據方面可以說有著無與倫比的優勢,已經成為數據分析中流砥柱的分析工具。
2、比起MATLAB、R語言等其他主要用於數據分析語言,python語言功能更加健全
Python具有強大的編程能力,這種編程語言不同於R或者matlab,python有些非常強大的數據分析能力,並且還可以利用Python進行爬蟲,寫游戲,以及自動化運維,在這些領域中有著很廣泛的應用,這些優點就使得一種技術去解決所有的業務服務問題,這就充分的體現的Python有利於各個業務之間的融合。如果使用Python,能夠大大的提高數據分析的效率。
3、python庫一直在增加,演算法的實現採取的方法更加創新
4、python能很方便的對接其他語言,比如c、java等。
Python最大的優點那就是簡單易學。Python代碼十分容易被讀寫,最適合剛剛入門的朋友去學習。我們在處理數據的時候,一般都希望數據能夠轉化成可運算的數字形式,這樣,不管是沒學過編程的人還是學過編程的人都能夠看懂這個數據。
其實現如今,Python是一個面向世界的編程語言,Python對於如今火熱的人工智慧也有一定的幫助,這是因為人工智慧需要的是即時性,而Python是一種非常簡潔的語言,同時有著豐富的資料庫以及活躍的社區,這樣就能夠輕松的提取數據,從而為人工智慧做出優質的服務。
通過上面的描述,相信大家已經知道了使用Python做數據分析的優點了。Python語言得益於它的簡單方便,使得其在大數據、數據分析以及人工智慧方面都有十分明顯的存在感,對於數據分析從業者以及想要進入數據分析行業的人來說,簡單易學容易上手的優勢也是一個優勢,所以不管大家是否進入數據分析行業,學習Python是沒有壞處的。
Python中文網,大量Python視頻教程,歡迎學習!
9. python怎麼樣
想學的話,當然是可以學習的。python是一門語法優美的編程語言,不僅可以作為小工具使用提升我們日常工作效率,也可以單獨作為一項高新就業技能!
python可以做的事情:
軟體開發:用python做軟體是很多人正在從事的工作,不管是B/S軟體,還是C/S軟體,都能做。並且需求量還是挺大的;
數據挖掘:python可以製作出色的爬蟲工具來進行數據挖掘,而在很多的網路公司中數據挖掘的崗位也不少;
游戲開發:python擴展性很好,擁有游戲開發的庫,而且游戲開發絕對是暴力職業;
大數據分析:如今是大數據的時代,用python做大數據也是可以的,大數據分析工程師也是炙手可熱的職位;
全棧工程師:如今程序員都在向著全棧的方向發展,而學習python更具備這方面的優勢;
系統運維:python在很多linux中都支持,而且語法特點很向shell腳本,學完python做個系統運維也是很不錯的。
你可以考察對比一下有名氣的開設python課程的學校,好的學校會根據市場調研做專業的課程設計。祝你學有所成,望採納。
10. 有沒有老師了解Python用於Meta分析的工具包
Python在科學計算領域,有兩個重要的擴展模塊:Numpy和Scipy。其中Numpy是一個用python實現的科學計算包。包括:
一個強大的N維數組對象Array;
比較成熟的(廣播)函數庫;
用於整合C/C++和Fortran代碼的工具包;
實用的線性代數、傅里葉變換和隨機數生成函數。
SciPy是一個開源的Python演算法庫和數學工具包,SciPy包含的模塊有最優化、線性代數、積分、插值、特殊函數、快速傅里葉變換、信號處理和圖像處理、常微分方程求解和其他科學與工程中常用的計算。其功能與軟體MATLAB、Scilab和GNU Octave類似。
Numpy和Scipy常常結合著使用,Python大多數機器學習庫都依賴於這兩個模塊,繪圖和可視化依賴於matplotlib模塊,matplotlib的風格與matlab類似。Python機器學習庫非常多,而且大多數開源,主要有:
1.scikit-learn
scikit-learn是一個基於SciPy和Numpy的開源機器學習模塊,包括分類、回歸、聚類系列演算法,主要演算法有SVM、邏輯回歸、樸素貝葉斯、Kmeans、DBSCAN等,目前由INRI資助,偶爾Google也資助一點。
項目主頁:
https://pypi.python.org/pypi/scikit-learn/
http://scikit-learn.org/
https://github.com/scikit-learn/scikit-learn
2.NLTK
NLTK(Natural Language Toolkit)是Python的自然語言處理模塊,包括一系列的字元處理和語言統計模型。NLTK常用於學術研究和教學,應用的領域有語言學、認知科學、人工智慧、信息檢索、機器學習等。NLTK提供超過50個語料庫和詞典資源,文本處理庫包括分類、分詞、詞干提取、解析、語義推理。可穩定運行在Windows, Mac OS X和Linux平台上.
項目主頁:
http://sourceforge.net/projects/nltk/
https://pypi.python.org/pypi/nltk/
http://nltk.org/
3.Mlpy
Mlpy是基於NumPy/SciPy的Python機器學習模塊,它是Cython的擴展應用。包含的機器學習演算法有:
l回歸
least squares,ridge regression, least angle regression,elastic net, kernel ridge regression,support vector machines(SVM),partial least squares(PLS)
l分類
linear discriminant analysis(LDA), Basicperceptron, Elastic Net,logistic regression, (Kernel) Support Vector Machines (SVM), Diagonal Linear Discriminant Analysis (DLDA), Golub Classifier, Parzen-based, (kernel) Fisher Discriminant Classifier, k-nearest neighbor, Iterative RELIEF, Classification Tree, Maximum Likelihood Classifier
l聚類
hierarchical clustering, Memory-saving Hierarchical Clustering,k-means
l維度約減
(Kernel)Fisher discriminant analysis(FDA), Spectral Regression Discriminant Analysis (SRDA), (kernel)Principal component analysis(PCA)
項目主頁:
http://sourceforge.net/projects/mlpy
https://mlpy.fbk.eu/
4.Shogun
Shogun是一個開源的大規模機器學習工具箱。目前Shogun的機器學習功能分為幾個部分:feature表示,feature預處理,核函數表示,核函數標准化,距離表示,分類器表示,聚類方法,分布,性能評價方法,回歸方法,結構化輸出學習器。
SHOGUN的核心由C++實現,提供Matlab、R、Octave、Python介面。主要應用在linux平台上。
項目主頁:
http://www.shogun-toolbox.org/
5.MDP
The Molar toolkit for Data Processing (MDP),用於數據處理的模塊化工具包,一個Python數據處理框架。
從用戶的觀點,MDP是能夠被整合到數據處理序列和更復雜的前饋網路結構的一批監督學習和非監督學習演算法和其他數據處理單元。計算依照速度和內存需求而高效的執行。從科學開發者的觀點,MDP是一個模塊框架,它能夠被容易地擴展。新演算法的實現是容易且直觀的。新實現的單元然後被自動地與程序庫的其餘部件進行整合。MDP在神經科學的理論研究背景下被編寫,但是它已經被設計為在使用可訓練數據處理演算法的任何情況中都是有用的。其站在用戶一邊的簡單性,各種不同的隨時可用的演算法,及應用單元的可重用性,使得它也是一個有用的教學工具。
項目主頁:
http://mdp-toolkit.sourceforge.net/
https://pypi.python.org/pypi/MDP/