Ⅰ 用數據挖掘的方法如何幫助決策者進行決策
一般決策大致包括發現問題、確定目標、價值准則、擬定方案、分析評估、方案選優、試驗驗證、普遍實施這8個基本步驟。數據挖掘是一種決策支持過程,它通過高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。
利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特徵、變化和偏差分析、Web頁挖掘等, 它們分別從不同的角度對數據進行挖掘。從而方便決策者作出正確的抉擇。分類是通過分類模型將資料庫中的數據項映射。回歸分析方法反映的是事務資料庫中屬性值在時間上的特徵,聚類分析主要應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。關聯規則是描述資料庫中數據項之間所存在的關系的規則……
如果您想了解更多關於數據挖掘等相關方面的知識,建議您前往CDA數據分析師官網進行咨詢。CDA數據分析師的課程培養學員硬性的數據挖掘理論與Python數據挖掘演算法技能的同時,還兼顧培養學員軟性數據治理思維、商業策略優化思維、挖掘經營思維、演算法思維、預測分析思維,全方位提升學員的數據洞察力。點擊預約免費試聽課。
Ⅱ XGBoost原理詳解及系統優化
XGBoost,全稱「Extreme Gradient Boosting」,和GBDT一樣屬於Boosting類型的模型,也是一種加法模型。
監督學習中模型表示從樣本輸入 到預測輸出 的映射關系,參數是我們要學習的部分,比如線性回歸模型 , 是我們要學習的參數。
模型訓練的過程就是尋找最優參數,使得模型能夠很好的擬合樣本和標簽。為了評價模型擬合樣本和標簽的好快程度,我們需要一個評估指標,即模型的目標函數。
通常目標函數由兩部分組成:損失部分和正則部分: ,其中L是損失函數,衡量模型的預測能力, 是正則項,控制模型的復雜度,防止模型過擬合。
XGBoost是基於CART決策樹的加法模型,形式可以表示為:
其中K表示樹的棵數,f是函數空間F中的函數,F代表所有可能的CART樹。目標函數表示為
有了目標函數之後,XGBoost的訓練過程就是尋找最優參數最小化目標函數。XGBoost的參數是什麼呢?XGBoost和GBDT一樣,是函數空間的加法模型,其參數為函數,每個函數表示一棵CART樹,包含樹的結構和樹中葉子節點的分數。
XGBoost的加法模型表示為:
...
在每一步中,我們想要學習的函數或CART樹必須能夠使得目標函數最優:
使用展開到二階的泰勒展開式
將目標函數展開到二階項:
其中:
移除所有的常數項之後,在第t步的目標函數就變為:
這就是我們每學習一棵新決策樹時的優化目標,該優化目標的值只依賴於 和 ,這也就是為什麼XGBoost支持自定義損失函數的原因:只要損失函數是一階和二階可導的,我們就可以一階導數和二階導數優化目標函數。
目標函數中除了損失之外,還有一項:正則項,也就是說我們還需要定義決策樹的復雜度。
首先,定義一棵決策樹為:
其中 是表示葉子節點的分數的向量, 表示把每個樣本映射到對應葉子節點的函數, 是葉子節點的數量。
基於以上的決策樹定義,XGBoost中決策樹復雜度定義為:
當然,決策樹復雜度的定義可以有多種,但是這里使用的定義方式在實踐中比較有效。很多關於樹模型的演算法包中經常忽略正則項,是因為傳統樹的學習重點關注提高節點純度。XGBoost通過在目標函數中增加決策樹復雜度,we can get a better idea of what we are learning and obtain models that perform well in the wild.
在定義了決策樹復雜度之後,我們在第t步的目標函數可以進一步做如下變換:
其中 是分配到葉子節點j的樣本集合。由於同屬一個葉子節點的樣本具有相同的分數,所以可以進行以上的變換。
如果定義:
那麼上面的目標函數可以簡化為:
上面的目標函數中 可以看做是關於 的二次方程,那麼使得目標函數取得最優值時的 以及目標函數的最優值分別為:
對於一棵決策樹, 定義了葉子節點的分數, 相當於樹的純度,並且包含了樹復雜度的度量。
有了樹的度量標准之後,理想情況下可以遍歷所有可能的樹結構,選擇最優的結構。但是在實際中是行不通的,所以我們選擇每次優化樹的一層結構,即當我們需要把樹的一個葉子節點分裂成兩個的時候,分裂的Gain為:
Gain由四部分組成:1)分裂之後左邊葉子節點的分數;2)分裂之後右邊葉子節點的分數;3)分裂之前葉子節點的分數;4)一個葉子節點分裂為兩個葉子節點時額外增加的正則。
從Gain的表達式可以看出,如果葉子節點分裂的分數差小於 ,就不要再進行分裂了。
Gain就是XGBoost在選擇分裂點時的評估依據。在實際進行分裂時,為了比較高效的選擇最優的分裂點,通常我們先把樣本按照候選特徵進行排序,然後進行遍歷並計算每個可能分裂點的Gain。
除了使用正則項之外,XGBoost還使用另外兩種技術進一步防止過擬合。第一個是shrinkage,由Friedman提出(就是那個提出GBDT演算法的Friedman)。Shrinkage對新學習到的樹節點的分數進行縮放,類似於梯度優化中的學習率,shrinkage對單棵樹的預測結果進行縮放,降低了單棵樹的預測結果在模型中的權重,並且給以後的樹留出了學習空間。第二個是列采樣,列采樣通常被用在RandomForest中。列采樣相比行采樣(也就是對樣本進行采樣,XGBoost也支持行采樣),防止過擬合的效果更好,同時,列采樣也一定程度上加速了XGBoost的並行計算。
樹訓練中的一個比較重要的問題就是尋找最佳分裂點。最基本的精確貪婪演算法通過遍歷所有可能的分裂點,然後計算Gain,選擇Gain最大的分裂點。為了提高遍歷效率,需要首先對樣本按照特徵值進行排序。精確貪婪演算法的流程見Algorithm1。
精確貪婪演算法因為要遍歷所有可能的分裂點,所以總是能夠找到最佳的分裂點,但是當數據量足夠大,超出內存容量的時候,這種方式就失效了。另外,在分布式計算的情況下,數據分布在不同的節點上,精確貪婪演算法也不能進行有效的計算。在這兩種情況下,就需要採用近似演算法。近似演算法首先根據特徵值分布的百分位數產生一些候選分割點,然後根據候選分割點把連續的特徵離散化,然後計算梯度統計gi和hi,根據梯度統計計算obj*和gain,進而尋找最佳候選分割點。詳細的演算法流程見Algorithm2.
根據候選分割點在什麼時候產生,近似演算法又分成兩種形式。第一種是global variant,是在樹構造之前首先產生所有的候選分割點,後面在樹的每一層進行分裂的時候都使用這些候選分割點。另外一種是Local variant,是在每次節點分裂之後,根據分配到節點的樣本重新產生候選分割點。Global variant只產生一次候選分割點,而local variant需要多次產生候選分割點,但是由於屬於樹中間層節點的樣本較少,尤其是隨著樹的深度增加,local variant相比global variant產生的候選分割點數量更少,而且由於local variant產生候選分割點只依賴於當前節點的樣本特徵值,因此更適合於deeper tree。
為了對比global variant和local variant,我們在Higgs boson dataset(一個kaggle比賽的數據集)上對兩種方式進行試驗,試驗結果見下圖。
(說明:eps越小,說明產生的候選分割點越多,原因或原理見2.2.3)
試驗結果:1)global eps=0.05和exact greedy對比說明,近似演算法的global variant如果產生足夠多數量的候選分裂點,基本達到和精確貪婪演算法同樣的模型效果;2)global eps=0.3和local eps=0.3對比說明,產生候選分裂點數量相同的情況下,local variant相比global variant能達到更好的模型效果(因為在樹的非根節點,相同數量的候選分裂點的情況下,實際上local variant要比global variant劃分的更加精細),或者反過來說也可以,要達到同樣的模型效果,local variant相比global variant需要更少的候選分裂點。
近似演算法中重要的一步就是產生合理的候選分裂點,通常是根據特徵值的百分位數點產生候選分割點,這樣可以把特徵值平均的分成若干個區間。實際上,XGBoost中採取的方法是,計算 ,其中 表示第k個特徵的第n個樣本的值, 表示目標函數關於 的二階導數,然後定義排序函數 :
表示在 中特徵值小於z的樣本加權佔比,權重為h。
為什麼把二階導數作為權重呢?原因來源於目標函數表達式:
對以上表達式變換一下:
這個表達式格式可以看做是以 為label,以 為權重的加權平方損失。
定義排序函數的目標是尋找候選分裂點 ,候選分裂點必須滿足:
這里 是一個超參數(2.2.2中的eps就是指的這個超參數),直觀上可以理解為,候選分裂點的數量大概為 .
在實際應用中,最常見的是類型是稀疏類型的特徵,就是特徵裡面可能包含大量的缺失值。為了使XGBoost能夠適用大量缺失值的場景,在樹分裂的時候,給缺失值一個默認的分裂方向(全部分裂到左子節點或者全部分裂到右子節點),默認的分裂方向是通過在訓練數據上學習得到的。學習默認分裂方向的演算法見Algorithm3。演算法只遍歷沒有缺失的樣本,然後把有缺失值的樣本當做一個整體,通過全部將其分到左子節點或右子節點,比較分到左邊或右邊的效果更好,就把全部缺失值樣本分到哪邊。
大多數已有的樹學習演算法要麼僅針對密集數據進行了優化,要麼需要特定的過程來處理有限的情況,例如分類編碼。 XGBoost以統一的方式處理所有稀疏模式。 更重要的是,我們的方法利用了稀疏性,使計算復雜度與輸入中非缺失項的數量呈線性關系。
XGBoost中最耗時的部分是對特徵進行排序。為了提高排序的效率,我們採取事先把數據存儲在被稱為block的內存單元里,每個block中的數據是以列壓縮(CSC)的格式存儲,每列都按照該列的數值大小進行排序。這種輸入數據只需要在訓練之前計算一次,就可以重復用於之後每棵樹的迭代訓練。
在精確貪婪演算法中,我們把整個數據集存儲在同一個block中,並且存儲在block中的數據已經是按照每列的特徵值進行排序後的,所以只需要遍歷一次block,並且根據每個樣本點屬於哪個葉子節點,就能同時為每個葉子節點尋找到最佳分裂點。下圖表示了如何把數據集轉換成列壓縮(CSC)的格式,並且使用block高效的完成尋找最佳分裂點。
在近似演算法尋找最佳分裂點中, 採取的block存儲方式與精確貪婪演算法中有所不同,近似演算法中採取用多個block對數據進行存儲,每個block對應於一部分樣本數據,並且block可以分布在不同的機器上,或存儲在磁碟上。因為每個block是根據特徵值預先排序的(此處,我理解應該是整體數據集先排序之後,然後分散在不同的block中),近似演算法中的分位數搜索就變成了線性搜索,尤其是在local proposal模式下,候選分割點需要在每個分支下搜索產生,線性搜索相比分位數搜索極大的提高了效率。
收集每列的梯度統計信息可以並行進行,從而為我們提供了一種候選分裂點查找的並行演算法。另外重要的是,CSC列壓縮存儲格式和block存儲結構支持列采樣,所以可以很方便的選擇block中的部分列。
block結構降低了選取候選分裂點的計算復雜度,但是由於block中的數據是按照CSC的列壓縮格式存儲的,並且每列是按照特徵值排序的,除了特徵值之外,還存儲了指針從特徵值指向樣本索引,所以在選取候選分割點的時候,會不斷的根據特徵值對應的樣本索引去取梯度統計值,也就是說CPU會不斷地訪問非連續的內存單元,增加CPU的負擔。最簡單的實現方法是,CPU讀取一次內存單元中的梯度統計值,就進行一次累計計算,就回引起CPU在累計計算和訪問非連續的內存單元之間的讀寫依賴關系。如果block中的梯度統計數據不能進入CPU緩存(比如block太大等原因),或者發生緩存丟失cache miss,就會降低候選分裂點選取的效率。
對於精確的貪婪演算法,我們可以通過緩存感知的預提取演算法來緩解問題。 具體來說,我們給每個線程分配一個內部緩沖區,將梯度統計信息提取到其中,然後以小批量的方式執行累加。 這種預提取將直接讀/寫依賴關系更改為更長的依賴關系,並在行數較大時幫助減少運行開銷。在數據集較大時,精確貪婪演算法的可感知緩存的運行速度是普通版本的兩倍。
對於近似演算法,我們通過選擇合適的block大小來解決該問題。 我們將block大小定義為一個block中包含的最大樣本數,因為這反映了梯度統計信息的緩存存儲成本。 選擇過小的block大小會較小每個線程的工作量,但是同時也會降低並行化效率。 另一方面,太大的block會導致高速緩存丟失cache miss,因此 block大小的選擇應該要平衡這兩個因素。 通過在不同數據集上的測試,block大小設置為 是個合適的選擇。
為了充分利用機器的資源來實現可擴展的學習,除了處理器和內存之外,利用磁碟空間來處理不能放在主內存的數據也很重要。 為了實現核外計算,我們將數據分為多個block,並將每個block存儲在磁碟上。 在計算過程中,重要的是要使用獨立的線程將block預提取到主存儲器緩沖區中,這樣就可以在讀取磁碟的同時進行計算。 但是,磁碟讀取佔用了大部分計算時間,所以要減少開銷並增加磁碟IO的吞吐量。 我們主要使用兩種技術來改進核外計算。
1)block壓縮
將block按列進行壓縮,然後在載入到內存時通過獨立的線程解壓縮,相當於用解壓縮時間換取磁碟讀取成本。我們使用通用壓縮演算法來壓縮特徵值。 對於行索引,我們把block中每個樣本的索引值都減去開始索引,並使用16位整數存儲每個樣本的索引偏移量。 在我們測試的大多數數據集中,我們實現了大約26%至29%的壓縮率。
2)block分片
將block中的數據分片到多個磁碟上,並且給每個磁碟分配獨立的線程,將數據提前取入內存緩沖區中,然後,訓練線程可以從每個緩沖區讀取數據。 當有多個磁碟可用時,這有助於增加磁碟讀取的吞吐量。
Ⅲ 如何將非結構化數據轉化為結構化數據
隨著機器學習的發展,過去傳統的結構化數據分析方法已經不能滿足我們的需求了。如何在神經網路中利用非結構化數據是很重要的一點。所以很多研究者致力於將非結構化數據處理成結構化數據的工具開發。將非結構化數據轉化為結構化數據有以下幾個方法:
1. 傳統方法——樹
雖然絕大多數數據是非結構化格式的,但是結構化數據普遍存在於各類商業應用軟體和系統中,例如產品數據存儲,交易日誌,ERP和CRM 系統中都存在大量結構化數據,這些結構化數據仍應用著陳舊的數據技術處理,如基於規則的系統,決策樹等。這樣的方法需要人工進行特徵提取,操作繁瑣且需要耗費大量人力進行數據標簽。
非結構化數據,也就是通常使用的雜亂無章的文本數據。非結構化數據通常是不能用結構化數據的常規方法以傳統方式進行分析或處理的,所以這也成為AI領域一個常見的難題,要理解非結構化數據通常需要輸入整段文字,以識別其潛在的特徵,然後查看這些特徵是否出現在池中的其他文本中。因此,在處理此類任務時,深度學習以其出色的特徵提取能力一騎絕塵,於是所有人都開始想著把神經網路用在結構化數據上——建個全連接層,把每一列的內容作為輸入,再有一個確定好的標簽,就可以進行訓練和推理了。
2. 新型利器——深度學習
需要尋找結構化數據的語義,目前要解決的問題主要有:
①數據清洗。要在結構化數據 AI 應用上有所成果,首先需要解決人工數據清洗和准備的問題,找到極少或者沒有人為干預的自動化方法,才能使得這一應用可落地可拓展。
②異構數據。處理結構化數據的其中一大挑戰在於,結構化數據可能是異構的,同時組合了不同類型的數據結構,例如文本數據、定類數據、數字甚至圖像數據。其次,數據表有可能非常稀疏。想像一個 100 列的表格,每列都有 10 到 1000 個可能值(例如製造商的類型,大小,價格等),行則有幾百萬行。由於只有一小部分列值的組合有意義,可以想像,這個表格可能的組合空間有多麼「空」。
③語義理解。找到這些結構化數據的語義特徵。處理結構化數據並不僅僅依賴於數據本身的特徵 (稀疏,異構,豐富的語義和領域知識),數據表集合 (列名,欄位類型,域和各種完整性約束等)可以解碼各數據塊之間的語義和可能存在的交互的重要信息。也就是說,存儲在資料庫表中的信息具有強大的底層結構,而現有的語言模型(例如 BERT)僅受過訓練以編碼自由格式的文本。
3. 結構化數據清洗
除了某些特定的需求外,經過預處理之後的結構化數據,應該滿足以下特點:
①所有值都是數字–機器學習演算法取決於所有數據都是數字;
②非數字值(在類別或文本列中的內容)需要替換為數字標識符;
③標識並清除具有無效值的記錄;
④識別並消除了無關的類別;
⑤所有記錄都需要使用相同的一致類別。
Ⅳ 【論文精讀】決策樹:XGBoost: A Scalable Tree Boosting System
XGBoost 的方法源自於Friedman的二階方法,XGBoost在正則化目標函數上做了小改進。XGBoost是陳天奇等人開發的一個開源機器學習項目,高效地實現了 GBDT演算法 並進行了演算法和工程上的許多改進。 (XGBoost本質上還是一個GBDT,但是力爭把速度和效率發揮到極致)
對於一個含n個訓練樣本,m個features的給定數據集D,所使用的樹集成模型(見圖「樹集成模型」)使用 K次求和函數(下圖公式1) 來預測輸出( 加法模型 )。
在2.1中的目標函數公式(對應論文公式2)上中的樹集成模型包含函數作為參數,傳統的歐幾里得空間優化方法無法對其進行優化。因此,模型是以相加的方式訓練(前向分步演算法)的。認為y ̂_i(t)是第i個實例在第t次迭代時的預測,加入一個新的ft來最小化以下目標。目標函數表達式為:
對於該函數的優化,在 XGBoost 中使用了泰勒展開式,與 GDBT 不同的是 XGBoost 使用了泰勒二次展開式。去掉常數項(如下圖「常數項」),最終得到簡化後的函數(損失函數),如下圖「損失函數」。
定義 q 函數將輸入 x 映射到某個葉節點上,則定義每個葉子節點j上的樣本集合為
除了正則化目標外,還使用了另外兩種技術來進一步防止過擬合。
構建樹,尋找分裂點的時候需要關注兩個問題:選用什麼特徵(維度)進行切割和在所選特徵(維度)取什麼樣的閾值進行切割。
在所有特徵上,枚舉所有可能的劃分。 精確貪心演算法從樹的根節點開始,對每個葉節點枚舉所有的可用特徵。 文中指出:為了更高效,該演算法必須首先根據特徵值對數據進行排序,以有序的方式訪問數據來枚舉打分公式中的結構得分(structure score)的梯度統計(gradient statistics)。 (就是寫兩層循環窮舉這兩個參數,逐個嘗試後保留最優的切分方案。 )
該演算法要求窮舉所有數據,當數據不能完全裝入內存時(特徵量比較大,設備不支持),就不可能有效地這樣做。
分桶操作 ,該演算法首先會根據特徵分布的百分位數,提出候選劃分點。將連續型特徵映射到由這些候選點劃分的分桶(buckets)中,聚合統計信息,基於該聚合統計找到proposal中的最優解。(計算每個桶中的統計信息就可以求出最佳分裂點的最佳分裂收益值)
採用分位數的直方圖近似計算分位點,以近似獲取特定的查詢。使用隨機映射將數據流投射在一個小的存儲空間內作為整個數據流的概要,這個小空間存儲的概要數據( 需要保留原序列中的最小值和最大值 )稱為Sketch,可用於近似回答特定的查詢。
在每個樹節點中添加一個默認方向,對於缺失數據讓模型自動學習默認的劃分方向。採用的是在每次的切分中,讓缺失值分別被切分到左節點以及右節點,通過計算得分值比較兩種切分方法哪一個更優,則會對每個特徵的缺失值都會學習到一個最優的默認切分方向。
XGBoost 在目標函數上加入了懲罰項,使模型的泛化能力大大增強,且對行列支持降采樣,優化了計算速度。
比較有意思的點在於稀疏值處理,讓模型自動學習,默認劃分節點,選擇最優。
Ⅳ 最小二乘法、回歸分析法、灰色預測法、決策論、神經網路等5個演算法的使用范圍及優缺點是什麼
最小二乘法:通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。優點:實現簡單,計算簡單。缺點:不能擬合非線性數據.
回歸分析法:指的是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。在大數據分析中,回歸分析是一種預測性的建模技術,它研究的是因變數(目標)和自變數(預測器)之間的關系。這種技術通常用於預測分析,時間序列模型以及發現變數之間的因果關系。優點:在分析多因素模型時,更加簡單和方便,不僅可以預測並求出函數,還可以自己對結果進行殘差的檢驗,檢驗模型的精度。缺點:回歸方程式只是一種推測,這影響了因子的多樣性和某些因子的不可測性,使得回歸分析在某些情況下受到限制。
灰色預測法:
色預測法是一種對含有不確定因素的系統進行預測的方法 。它通過鑒別系統因素之間發展趨勢的相異程度,即進行關聯分析,並對原始數據進行生成處理來尋找系統變動的規律,生成有較強規律性的數據序列,然後建立相應的微分方程模型,從而預測事物未來發展趨勢的狀況。它用等時間距離觀測到的反應預測對象特徵的一系列數量值構造灰色預測模型,預測未來某一時刻的特徵量,或者達到某一特徵量的時間。優點:對於不確定因素的復雜系統預測效果較好,且所需樣本數據較小。缺點:基於指數率的預測沒有考慮系統的隨機性,中長期預測精度較差。
決策樹:在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。優點:能夠處理不相關的特徵;在相對短的時間內能夠對大型數據源做出可行且效果良好的分析;計算簡單,易於理解,可解釋性強;比較適合處理有缺失屬性的樣本。缺點:忽略了數據之間的相關性;容易發生過擬合(隨機森林可以很大程度上減少過擬合);在決策樹當中,對於各類別樣本數量不一致的數據,信息增益的結果偏向於那些具有更多數值的特徵。
神經網路:優點:分類的准確度高;並行分布處理能力強,分布存儲及學習能力強,對雜訊神經有較強的魯棒性和容錯能力,能充分逼近復雜的非線性關系;具備聯想記憶的功能。缺點:神經網路需要大量的參數,如網路拓撲結構、權值和閾值的初始值;不能觀察之間的學習過程,輸出結果難以解釋,會影響到結果的可信度和可接受程度;學習時間過長,甚至可能達不到學習的目的。
Ⅵ 將非結構化數據轉化為結構化數據有哪些方法
非結構化數據轉化為結構化數據有以下幾個方法:
1. 傳統方法——樹
雖然絕大多數數據是非結構化格式的,但是結構化數據普遍存在於各類商業應用軟體和系統中,例如產品數據存儲,交易日誌,ERP和CRM 系統中都存在大量結構化數據,這些結構化數據仍應用著陳舊的數據技術處理,如基於規則的系統,決策樹等。這樣的方法需要人工進行特徵提取,操作繁瑣且需要耗費大量人力進行數據標簽。
非結構化數據,也就是通常使用的雜亂無章的文本數據。非結構化數據通常是不能用結構化數據的常規方法以傳統方式進行分析或處理的,所以這也成為AI領域一個常見的難題,要理解非結構化數據通常需要輸入整段文字,以識別其潛在的特徵,然後查看這些特徵是否出現在池中的其他文本中。因此,在處理此類任務時,深度學習以其出色的特徵提取能力一騎絕塵,於是所有人都開始想著把神經網路用在結構化數據上——建個全連接層,把每一列的內容作為輸入,再有一個確定好的標簽,就可以進行訓練和推理了。
2. 新型利器——深度學習
需要尋找結構化數據的語義,目前要解決的問題主要有:
①數據清洗。要在結構化數據 AI 應用上有所成果,首先需要解決人工數據清洗和准備的問題,找到極少或者沒有人為干預的自動化方法,才能使得這一應用可落地可拓展。
②異構數據。處理結構化數據的其中一大挑戰在於,結構化數據可能是異構的,同時組合了不同類型的數據結構,例如文本數據、定類數據、數字甚至圖像數據。其次,數據表有可能非常稀疏。想像一個 100 列的表格,每列都有 10 到 1000 個可能值(例如製造商的類型,大小,價格等),行則有幾百萬行。由於只有一小部分列值的組合有意義,可以想像,這個表格可能的組合空間有多麼「空」。
③語義理解。找到這些結構化數據的語義特徵。處理結構化數據並不僅僅依賴於數據本身的特徵 (稀疏,異構,豐富的語義和領域知識),數據表集合 (列名,欄位類型,域和各種完整性約束等)可以解碼各數據塊之間的語義和可能存在的交互的重要信息。也就是說,存儲在資料庫表中的信息具有強大的底層結構,而現有的語言模型(例如 BERT)僅受過訓練以編碼自由格式的文本。
3. 結構化數據清洗
除了某些特定的需求外,經過預處理之後的結構化數據,應該滿足以下特點:
①所有值都是數字–機器學習演算法取決於所有數據都是數字;
②非數字值(在類別或文本列中的內容)需要替換為數字標識符;
③標識並清除具有無效值的記錄;
④識別並消除了無關的類別;
⑤所有記錄都需要使用相同的一致類別。
Ⅶ 數據結構中各種排序的時間復雜度與空間復雜度比較!
冒泡排序是穩定的,演算法時間復雜度是O(n ^2)。 2.2 選擇排序(Selection Sort) 選擇排序的基本思想是對待排序的記錄序列進行n-1遍的處理,第i遍處理是將L[i..n]中最小者與L[i]交換位置。這樣,經過i遍處理之後,前i個記錄的位置已經是正確的了。 選擇排序是不穩定的,演算法復雜度是O(n ^2 )。 2.3 插入排序 (Insertion Sort) 插入排序的基本思想是,經過i-1遍處理後,L[1..i-1]己排好序。第i遍處理僅將L[i]插入L[1..i-1]的適當位置,使得L[1..i] 又是排好序的序列。要達到這個目的,我們可以用順序比較的方法。首先比較L[i]和L[i-1],如果L[i-1]≤ L[i],則L[1..i]已排好序,第i遍處理就結束了;否則交換L[i]與L[i-1]的位置,繼續比較L[i-1]和L[i-2],直到找到某一個位置j(1≤j≤i-1),使得L[j] ≤L[j+1]時為止。圖1演示了對4個元素進行插入排序的過程,共需要(a),(b),(c)三次插入。 直接插入排序是穩定的,演算法時間復雜度是O(n ^2) 。 2.4 堆排序 堆排序是一種樹形選擇排序,在排序過程中,將A[n]看成是完全二叉樹的順序存儲結構,利用完全二叉樹中雙親結點和孩子結點之間的內在關系來選擇最小的元素。 堆排序是不穩定的,演算法時間復雜度O(nlog n)。 2.5 歸並排序 設有兩個有序(升序)序列存儲在同一數組中相鄰的位置上,不妨設為A[l..m],A[m+1..h],將它們歸並為一個有序數列,並存儲在A[l..h]。 其時間復雜度無論是在最好情況下還是在最壞情況下均是O(nlog2n)。 2.6 快速排序 快速排序是對冒泡排序的一種本質改進。它的基本思想是通過一趟掃描後,使得排序序列的長度能大幅度地減少。在冒泡排序中,一次掃描只能確保最大數值的數移到正確位置,而待排序序列的長度可能只減少1。快速排序通過一趟掃描,就能確保某個數(以它為基準點吧)的左邊各數都比它小,右邊各數都比它大。然後又用同樣的方法處理它左右兩邊的數,直到基準點的左右只有一個元素為止。 快速排序是不穩定的,最理想情況演算法時間復雜度O(nlog2n),最壞O(n ^2)。 2.7 希爾排序 在直接插入排序演算法中,每次插入一個數,使有序序列只增加1個節點,並且對插入下一個數沒有提供任何幫助。如果比較相隔較遠距離(稱為 增量)的數,使得數移動時能跨過多個元素,則進行一次比較就可能消除多個元素交換。D.L.shell於1959年在以他名字命名的排序演算法中實現了這一思想。演算法先將要排序的一組數按某個增量d分成若干組,每組中記錄的下標相差d.對每組中全部元素進行排序,然後再用一個較小的增量對它進行,在每組中再進行排序。當增量減到1時,整個要排序的數被分成一組,排序完成。 希爾排序是不穩定的,其時間復雜度為O(n ^2)。 排序類別 時間復雜度 空間復雜度 穩定 1 插入排序 O(n2) 1 √ 2 希爾排序 O(n2) 1 × 3 冒泡排序 O(n2) 1 √ 4 選擇排序 O(n2) 1 × 5 快速排序 O(Nlogn) O(logn) × 6 堆排序 O(Nlogn) 1 × 7 歸並排序 O(Nlogn) O(n) √
0
順序查找, O(n) 二分, O(logn)需要排序分塊 分塊查找? 不知道..英文是什麼? 直接插入 O(n^2) 快速排序 最壞情況O(n^2) 平均O(nlogn) 起泡 和插入很像吧 O(n^2) 希爾,O(n^x) 1<x<2 需要比較復雜的分析方法選擇 沒聽過堆排序 最壞情況和平均都是O(nlogn) 其他:歸並(merge) O(nlogn) radix() (看怎麼來理解n,也可以說O(n)也可以O(nlogn),需要調用穩定的子排序演算法) basket O(n) 這兩個屬於非比較排序。 給予比較操作(> 或< )的排序演算法理論最低復雜度是O(nlogn) 證明: 所有可能情況為n! 構造決策樹需要n!子節點 <為二分操作,所以樹為二叉樹,高度為O(logn!)=O(nlogn)
Ⅷ 設計數據結構來表示和存儲決策樹 給點解題思路
EDN上看過類似的博客,你不妨去看看http://public.ednchina.com/Search.aspx?wd=%u6811%u72B6%u6570%u636E%u7684C%u8BED%u8A00%u68C0%u7D22