㈠ hadoop入門容易嗎
不是很容易,但是推薦一些Hadoop家族系列文章,主要介紹Hadoop家族產品,常用的項目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的項目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
一、學習路線圖
Hadoop家族學習路線圖 開篇必讀
Hive學習路線圖
Mahout學習路線圖
二、編程實踐
Hadoop歷史版本安裝
用Maven構建Hadoop項目
Hadoop編程調用HDFS
用Maven構建Mahout項目
Mahout推薦演算法API詳解
用MapRece實現矩陣乘法
從源代碼剖析Mahout推薦引擎
Mahout分步式程序開發 基於物品的協同過濾ItemCF
Mahout分步式程序開發 聚類Kmeans
PageRank演算法並行實現
三、案例分析
海量Web日誌分析 用Hadoop提取KPI統計指標
用Hadoop構建電影推薦系統
用Mahout構建職位推薦引擎
Mahout構建圖書推薦系統
PeopleRank從社交網路中發現個體價值
㈡ pagerank演算法 python怎麼迭代
一 個 搜 索引擎程序主要由搜索器、索引器.檢索器和用戶介面等四個部分組成,主要存儲設備由頁面存儲器和存儲桶兩部分組成。
• 搜索器:爬蟲 抓取 壓縮 存儲庫
• 索引器:存儲庫提取網頁信息,分析和分解,建立關鍵字索引,初步排序處理,存入存儲桶,即硬體存儲單元。
• 用戶通過用戶介面提交查詢,檢索器根據輸入關鍵詞,在索引器和存儲桶進行查找,並且採用演算法進行對結果的最終排序
網頁信息相關的頁面優先度演算法
• 以網頁內容為基礎的演算法:關鍵詞在特殊位置出現的狀況:例如titile,meta,des.
• 關鍵詞在頁面正文出現的狀況:關鍵詞出現總次數,出現單詞平均間隔,關鍵詞出現的頻率。
• 以網頁鏈接為基礎的演算法:例如PageRank演算法 HITS演算法 對於HITS不足補充加強的一些列演算法。
用戶行為相關頁面的演算法
• 不能忽略用戶對搜索結果相關性的意見。通過對WEB日誌的分析,調整頁面優先度
• 以點擊率為為基礎的Dir ect Hit 演算法:通過搜索結果返回的點擊率和相關頁面停留時間長短來判斷頁面受歡迎程度。
• 其他用戶行為:例如通過用戶行為二次篩選,逐漸縮小搜索結果與用戶期望的差距。Cookie記錄,熱門關鍵詞等。。
使站點被收錄
如何讓站點收錄
• 假如沒有給收錄,是否給搜索引擎封殺?是否蜘蛛訪問你的站點?
• 所有站點數據呈現下降趨勢,甚至為零,並且多個搜索引擎出現這種情況
• 通過網站日誌分析蜘蛛是否訪問站點:沒有鏈接,無效鏈接,無功而返。
我們要吸引鏈接。
怎樣使更多網頁被收錄
• 消除蜘蛛陷阱:robots.txt的設置 不要用蜘蛛訪問不到的技術顯示內容,例如彈出窗口,框架,FLASH,IMG,js 利用JS寫的下拉菜單。這樣一不能識別內容,二不能順著鏈接爬行。 動態URL地址過長,動態參數過多,? & = 等等,避免進入黑洞。。製作404頁面,確保伺服器的響應。。至少在10秒以內能打開網站。
• 減少被忽視的內容:精簡網頁,蜘蛛爬過一定大小的頁面就會停止爬行,加入網頁內容過多,可以用不必要的內容用JS來寫。。 FLASH裡面確保是你不想被收錄的內容,避免使用框架。
• 建立蜘蛛程序通道:設計站點地圖。
優化內容
搜索排名要素:主要的兩類
• 頁面要素:鏈接流行度,用戶行為,URL的長度 和深度,新鮮程度:內容,站點的結構,不要作弊
• 搜索請求要素:關鍵詞突出度,密度,頻率,內容,TF*IDF,搜索項接近度
吸引鏈接到你站點
• 目前最重要排名因素還是由鏈接決定的。
• 內容為王在以前的互聯網上是站有統計性的,但引起互聯網變化的不是內容,和是鏈接。這正的互聯網是能容易從一部分內容轉移到另外一部分內容。1998年的GOOGLE出現,打破了傳統的基於關鍵詞搜索排名演算法,而是基於鏈接分析,利用鏈接來評判網頁等級質量。PR
• 鏈接的流行度:鏈接數量,鏈接質量,錨文本,
• 鏈接相關性:單純的錨文本來判定相關是不夠的,搜索引擎會查看錨文本周邊的詞,查看整個頁面甚至整個鏈接來源站點上的詞。
鏈接的權重價值
• 內部鏈接<在同一個家族內<雙向鏈接<擁擠的單向鏈接<稀疏的單向鏈接
• 何為同一家族內鏈接:IP WHOIS 重復類似的錨文本 對這些權重都不會高。。
㈢ 如何做網站日誌分析
一、什麼是網站日誌
1.網站日誌是記錄web伺服器接收處理請求以及運行時錯誤等各種原始信息的以·log結尾的文件。
2.通過網站日誌可以清楚的得知用戶在什麼IP、什麼時間、用什麼操作系統、什麼瀏覽器、什麼解析度設備下訪問了網站的哪個頁面,是否訪問成功。
3.搜索引擎也屬於網站中的一類用戶,我們今天的分享課,主要是針對搜索引擎這種用戶在伺服器留下的記錄展開分析。
為了方便讀懂搜索引擎日誌,我們需要了解不同搜索引擎蜘蛛的標識,以下為4種搜索引擎的標識——*網路蜘蛛:Baispider*搜狗:Sogou News Spider*360:360Spider*谷歌:Googlebot
二、如何看懂網站日誌
(以下為一段日誌記錄)www.cafehome.com
58.180.251.134 - - [25/Mar/2015:13:24:33 +0800] "GET /m53256.html
HTTP/1.1" 200 12264 "http://www.cafehome.com/index-1s2i2p2" "Mozilla/5.0
(Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/35.0.1916.153 Safari/537.36 SE 2.X MetaSr 1.0" "-" "-" "-"
以下為欄位解讀:
㈣ 如何進行網站日誌分析
一個合格的站長或者seoer必須要能看懂網站的伺服器日誌文件,這個日誌記錄了網站被搜索引擎爬取的痕跡,給站長提供了蜘蛛是否來訪的有力佐證,站長朋友可以通過網站日誌來分析搜索引擎蜘蛛的抓取情況,分析網站的是否存在收錄異常問題。並且我們可以根據這個日誌文件判斷蜘蛛來訪頻率以及抓取規律,這將非常有利於我們做優化。另外,學習分析網站日誌文件也是站長必須具備的能力,也是你從一個初級seo進階到seo高手的必由之路。但是前提是要主機服務商開通日誌統計功能,一般虛擬主機提供商都不會開通,你可以申請開通,或者自己到伺服器管理後台開通這個日誌統計功能,不過日誌也會佔用空間的,我們在看完日誌文件後,可以隔段時間清理下日誌文件。那麼如何分析伺服器日誌文件呢?聽我娓娓道來。
搜索引擎抓取網站信息必會在伺服器上留下信息,這個信息就在網站日誌文件里。我們通過日誌可以了解搜索引擎的訪問情況,一般通過主機服務商開通日誌功能,再通過FTP訪問網站的根目錄,在根目錄下可以看到一個log或者weblog文件夾,這裡面就是日誌文件,我們把這個日誌文件下載下來,用記事本(或瀏覽器)打開就可以看到網站日誌的內容。那麼到底這個日誌裡面隱藏了什麼玄機呢?其實日誌文件就像飛機上的黑匣子。我們可以通過這個日誌了解很多信息,那麼到底這個日誌給我們傳遞了什麼內容呢?
如果想要知道網站日誌文件包含了什麼內容,首先必須知道各搜索引擎的蜘蛛名稱,比如網路的蜘蛛程序名稱是spider,Google的機器人程序名稱是Google-Googlebot等等,我們在日誌的內容里搜索上述的的蜘蛛名就可以知道哪個搜索引擎已經爬取過網站了,這里就留下了他們的蛛絲馬跡。再者,必須能看懂常見的http狀態碼,最常見的HTTP狀態碼有200(頁面抓取成功)、304(上次抓取的和這次抓取的沒變化),404(未找到頁面,錯誤鏈接)500(伺服器未響應,一般由伺服器維護和出故障,網站打不開時出現的),這些狀態碼是我們站長朋友必須能看懂的,伺服器狀態碼的值是我們和蜘蛛交流的信號。知道了這些基本信息以後我們就可以根據網站日誌進行分析了,一般來說我們只看網路和谷歌蜘蛛的爬行和抓取情況,當然有特殊需要的也可以對其他幾個蜘蛛的爬行情況進行分析。網站日誌中出現大量的谷歌蜘蛛和網路蜘蛛,說明搜索引擎蜘蛛時常來光顧你的網站。
說到分析日誌文件,我們就不得不說分析日誌文件的時機了,那麼在什麼情況下我們要去分析日誌文件呢?首先,新網站剛建立的時候,這個時候也是站長朋友最急切的時候,我們一般都會焦急的等待搜索引擎收錄網站內容,經常會做的事情就是去網路或者Google用命令site:下網站域名看看是否被收錄,這個時候,其實我們沒必要頻繁的查詢網站是否被收錄,要想知道搜索引擎是否關顧我們的網站。我們就可以藉助網站日誌文件來查看,怎麼看?看網站日誌是否有搜索引擎的蜘蛛來網站抓取過,看返回的狀態碼是200還是其他,如果返回200說明抓取成功,如果返回404說明頁面錯誤,或者頁面不存在,就需要做301永久重定向或者302暫時重定向。一般抓取成功後被搜索引擎放出來的時間也會晚點,一般谷歌機器人放出來的比較快,最快可秒殺,但是網路反應就慢了,最快也要一周左右,不過11月份網路演算法調整後,放出來的速度還是很快的。其次,當網站收錄異常時我們要把正常收錄的日誌和異常的日誌進行對比分析,找出問題所在,這樣可以解決網站收錄問題,也是對完整優化大有裨益的。第三,網站被搜索引擎K掉後,我們必須要觀察網站日誌文件來亡羊補牢,一般這種情況下,日誌文件里只有很少的幾個蜘蛛爬行了首頁和robots,我們要找出被K的原因並改正,再提交給搜索引擎,接下來就可以通過觀察日誌來看蜘蛛是否正常來臨,慢慢過一段時間,如果蜘蛛數量增加或者經常來臨並且返回200狀態嗎,那麼恭喜你,你的網站又活了,如果半年都沒反應,那麼建議放棄該域名重新再戰了。
很多站長朋友不懂得如何利用網站日誌文件,遇到網站收錄問題就去提問別人,而不好好自檢,這是作為站長或者seoer的悲哀。而且網上的很多軟文都提到要做好日誌文件的分析,但是那隻是軟文而已,說不定寫文章的作者都沒有去看日誌文件。說到底,還是希望站長朋友一定不要忽略了網站日誌文件,合理的利用好網站日誌文件是一個站長或seoer必備的技能。再者說,看懂網站日誌文件並不需要你有多麼高深的編碼知識,其實只要看得懂html代碼和幾個返回的狀態碼就可以了,一定不能懶,或者抱著僥幸心理去對待你的網站,這種心理會導致你輸得很慘。如果你是一個小站長,或者你是一個seoer,如果你以前沒有意識到網站日誌文件的重要性,那麼從看到我寫的這篇文章開始要好好對待你的網站日誌了。
㈤ 如何通過用數據挖掘技術來分析Web網站日誌
1、數據預處理階段根據挖掘的目的,對原始Web日誌文件中的數據進行提取、分解、合並、最後轉換為用戶會話文件。該階段是Web訪問信息挖掘最關鍵的階段,數據預處理包括:關於用戶訪問信息的預處理、關於內容和結構的預處理。
2、會話識別階段該階段本是屬於數據預處理階段中的一部分,這里將其劃分成單獨的一個階段,是因為把用戶會話文件劃分成的一組組用戶會話序列將直接用於挖掘演算法,它的精準度直接決定了挖掘結果的好壞,是挖掘過程中最重要的階段。
3、模式發現階段模式發現是運用各種方法和技術從Web日誌數據中挖掘和發現用戶使用Web的各種潛在的規律和模式。模式發現使用的演算法和方法不僅僅來自數據挖掘領域,還包括機器學習、統計學和模式識別等其他專業領域。
模式發現的主要技術有:統計分析(statistical analysis)、關聯規則(association rules)、聚類(clustering)、歸類(classification)、序列模式(sequential patterns)、依賴關系(dependency)。
(1)統計分析(statistical analysis):常用的統計技術有:貝葉斯定理、預測回歸、對數回歸、對數-線性回歸等。可用來分析網頁的訪問頻率,網頁的訪問時間、訪問路徑。可用於系統性能分析、發現安全漏洞、為網站修改、市場決策提供支持。
(2)關聯規則(association rules):關聯規則是最基本的挖掘技術,同時也是WUM最常用的方法。在WUM中常常用在被訪問的網頁中,這有利於優化網站組織、網站設計者、網站內容管理者和市場分析,通過市場分析可以知道哪些商品被頻繁購買,哪些顧客是潛在顧客。
(3)聚類(clustering):聚類技術是在海量數據中尋找彼此相似對象組,這些數據基於距離函數求出對象組之間的相似度。在WUM中可以把具有相似模式的用戶分成組,可以用於電子商務中市場分片和為用戶提供個性化服務。
(4)歸類(classification):歸類技術主要用途是將用戶資料歸入某一特定類中,它與機器學習關系很緊密。可以用的技術有:決策樹(decision tree)、K-最近鄰居、Naïve Bayesian classifiers、支持向量機(support vector machines)。
(5)序列模式(sequential patterns):給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素由不同項目組成,同時給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即子序列在序列集中的出現頻率不低於用戶指定的最小支持度閾值。
(6)依賴關系(dependency):一個依賴關系存在於兩個元素之間,如果一個元素A的值可以推出另一個元素B的值,則B依賴於A。
4、模式分析階段模式分析是Web使用挖掘最後一步,主要目的是過濾模式發現階段產生的規則和模式,去除那些無用的模式,並把發現的模式通過一定的方法直觀的表現出來。由於Web使用挖掘在大多數情況下屬於無偏向學習,有可能挖掘出所有的模式和規則,所以不能排除其中有些模式是常識性的,普通的或最終用戶不感興趣的,故必須採用模式分析的方法使得挖掘出來的規則和知識具有可讀性和最終可理解性。常見的模式分析方法有圖形和可視化技術、資料庫查詢機制、數理統計和可用性分析等。
㈥ Web測試的主要內容和測試方法有哪些
測試分類:
1、界面測試
1)給用戶的整體感:舒適感;憑感覺能找到想要找的信息;設計風格是否一致
2)各控制項的功能
2、功能測試
1)刪除/增加某一項:是否對其他項造成影響,這些影響是否都正確
2)列表默認值檢查
3)檢查按鈕功能是否正確:新建、編輯、刪除、關閉、返回、保存、導入、上一頁、下一頁、頁面跳轉、重置(常見錯誤)
4)字元串長度檢查:超出長度
5)字元類型檢查
6)標點符號檢查:空格、各種引號、Enter鍵
7)特殊字元:常見%、「、」
8)中文字元:是否亂碼
9)檢查信息完整:查看信息,查看所填信息是否完整更新;更新信息,更新信息與添加信息是否一致
10)信息重復:需唯一信息處,比如重復的名字或ID、重名是否區分大小寫、加空格
11)檢查刪除功能:不選擇任何信息,按Delete,看如何處理;選擇一個或多個進行刪除;多頁選、翻頁選刪除;刪除是否有提示
12)檢查添加和修改是否一致:添加必填項,修改也該必填;添加為什麼類型,修改也該什麼類型
13)檢查修改重名:修改時把不能重名的項改為已存在的內容
14)重復提交表單:一條已經成功提交的記錄,返回後再提交
15)檢查多次使用返回鍵:返回到原來頁面,重復多次
16)搜索檢查:存在或不存在內容,看搜索結果是否正確;多個搜索條件,同時輸入合理和不合理條件;特殊字元
17)輸入信息的位置
18)上傳下載文件檢查:功能是否實現,
上傳:上傳文件是否能打開、格式要求、系統是否有解釋信息、將不能上傳的文件格式修改後綴為可上傳的文件格式;
下載:下載是否能打開、保存、格式要求
19)必填項檢查:必填項未填寫;是否有提示,如加*;對必填項提示返回後,焦點是否自動定位到必填項
20)快捷鍵檢查:是否支持快捷鍵Ctrl+C、Ctrl+V、backspace;對不允許做輸入的欄位(如:下拉選項),對快捷方式是否也做了限制
21)Enter鍵檢查:輸入結束後按Enter鍵,系統如何處理
22)刷新鍵檢查:按瀏覽器刷新鍵如何處理
23)回退鍵檢查:按瀏覽器回退鍵如何處理
24)空格檢查:輸入項輸入一個或多個空格
25)輸入法半形全形檢查:比如,浮點型,輸入全形小數點「。」或「. 」,如4. 5;全形空格
26)密碼檢查:輸入加密方式的極限字元;密碼盡可能長
27)用戶檢查:不同種類管理員用戶的不同許可權,是否可以互相刪除、管理、編輯;一般用戶的許可權;注銷功能,老用戶注銷再注冊,是否為新用戶
28)系統數據檢查:數據隨業務過程、狀態的變化保持正確,不能因為某個過程出現垃圾數據,也不能因為某個過程而丟失數據。
29)系統可恢復性檢查:以各種方式把系統搞癱,測試系統是否可以迅速恢復
30)確認提示檢查:系統更新、刪除操作:是否有提示、取消操作;提示是否准確;事前、事後提示
31)數據注入檢查:對資料庫注入,特殊字元,對SQL語句進行破壞
32)時間日期檢查:時間、日期、時間驗證:日期范圍是否符合實際業務;對於不符合實際業務的日期是否有限制
33)多瀏覽器驗證
3、性能測試
1)壓力測試:實際破壞一個Web應用系統,測試系統的反應,測試系統的限制和故障恢復能力
2)負載測試:在某一負載級別上的性能,包括某個時刻同時訪問Web的用戶數量、在線數據處理的數量
3)強度測試:測試對象在性能行為異常或極端條件下(如資源減少或用戶過多)的可接受性,以此驗證系統軟硬體水平
4)資料庫容量測試:通過存儲過程往資料庫表中插入一定數量的數據,看是否能及時顯示
5)預期指標的性能測試:在需求分析和設計階段會提出一些性能指標,對於預先確定的性能要求要首先進行測試
6)獨立業務性能測試:對核心業務模塊做用戶並發測試,包括同一時刻進行完全一樣的操作、同一時刻使用完全一樣的功能
7)組合業務性能測試:模擬多用戶的不同操作,最接近實際用戶使用情況,按用戶實際的實際使用人數比例來模擬各個模塊的組合並發情況
8)疲勞強度性能測試:系統穩定運行情況下,以一定負載壓力來長時間運行系統的測試
9)網路性能測試:准確展示帶寬、延遲、負載、埠的變化是如何影響用戶的相應時間的
10)大數據量性能測試:實時大數據量,模擬用戶工作時的實時大數據量;極限狀態下的測試,系統使用一段時間,積累一段數據量時能否正常運行,以及對前面兩種進行結合
11)伺服器性能測試:在進行用戶並發性能測試、疲勞強度、大數據量性能測試時,完成對伺服器性能的監控,並進行評估
12)一些特殊的測試:配置測試、內存泄漏的一些特殊測試
4、可用性測試(介面測試)
1)整體界面測試
2)多媒體測試
3)導航測試
5、客戶端兼容性
平台測試:windows;unix;macintosh;linux
瀏覽器測試:不同廠商的瀏覽器對Java、Javascript、ActiveX、plug-ins或不同的HTML的規格
不同的支持;框架和層次結構在不同瀏覽器也不同的顯示
6、安全性
安全性測試要求:
1)能夠對密碼試探工具進行防範
2)能夠防範對Cookie攻擊的常用手段
3)敏感數據保證不用明文傳輸
4)能防範通過文件名猜測和查看html文件內容獲取重要信息
5)能保證在網站收到工具後在給定時間內恢復,重要數據丟失不超過1小時
web的性能測試工具:
隨著Web2.0技術的迅速發展,許多公司都開發了一些基於Web的網站服務,通常在設計開發Web應用系統的時候很難模擬出大量用戶同時訪問系統的實際情況。
因此,當Web網站遇到訪問高峰時,容易發生伺服器響應速度變慢甚至服務中斷。
為了避免這種情況,需要一種能夠真實模擬大量用戶訪問Web應用系統的性能測試工具進行壓力測試,來測試靜態HTML頁面的響應時間,甚至測試動態網頁(包括ASP、PHP、JSP等)的響應時間,為伺服器的性能優化和調整提供數據依據。
1、企業級自動化測試工具WinRunner
MercuryInteractive公司的WinRunner是一種企業級的功能測試工具,用於檢測應用程序是否能夠達到預期的功能及正常運行。
2、工業標准級負載測試工具Loadrunner
LoadRunner是一種預測系統行為和性能的負載測試工具
3、全球測試管理系統testdirector
TestDirector是業界第一個基於Web的測試管理系統,它可以在您公司內部或外部進行全球范圍內測試的管理。
4、功能測試工具RationalRobot
IBMRationalRobot是業界最頂尖的功能測試工具,它甚至可以在測試人員學習高級腳本技術之前幫助其進行成功的測試。
它集成在測試人員的桌面IBMRationalTestManager上,在這里測試人員可以計劃、組織、執行、管理和報告所有測試活動,包括手動測試報告。
這種測試和管理的雙重功能是自動化測試的理想開始。
5、單元測試工具xUnit系列
目前的最流行的單元測試工具是xUnit系列框架,常用的根據語言不同分為JUnit(java),CppUnit(C++),DUnit(Delphi),NUnit(.net),PhpUnit(Php)等等。
該測試框架的第一個和最傑出的應用就是由ErichGamma(《設計模式》的作者)和KentBeck(XP(ExtremeProgramming)的創始人)提供的開放源代碼的JUnit.
6、功能測試工具SilkTest
BorlandSilkTest2006屬於軟體功能測試工具,是Borland公司所提出軟體質量管理解決方案的套件之一。
這個工具採用精靈設定與自動化執行測試,無論是程序設計新手或資深的專家都能快速建立功能測試,並分析功能錯誤。
7、性能測試工具WAS
是由微軟的網站測試人員所開發,專門用來進行實際網站壓力測試的一套工具。
透過這套功能強大的壓力測試工具,您可以使用少量的Client端計算機模擬大量用戶上線對網站服務所可能造成的影響。
8、自動化白盒測試工具Jtest
Jtest是parasoft公司推出的一款針對java語言的自動化白盒測試工具,它通過自動實現java的單元測試和代碼標准校驗,來提高代碼的可靠性。
parasoft同時出品的還有C++test,是一款C/C++白盒測試工具。
9、功能和性能測試的工具JMeter
JMeter是Apache組織的開放源代碼項目,它是功能和性能測試的工具,100%的用java實現。
10、性能測試和分析工具WEBLOAD
webload是RadView公司推出的一個性能測試和分析工具,它讓web應用程序開發者自動執行壓力測試;webload通過模擬真實用戶的操作,生成壓力負載來測試web的性能。
(6)web日誌分析演算法擴展閱讀:
漏洞測試
企業網站做的越來越復雜、功能越來越強。不過這些都不是憑空而來的,是通過代碼堆積起來的。如果這個代碼只供企業內部使用,那麼不會帶來多大的安全隱患。
但是如果放在互聯網上使用的話,則這些為實現特定功能的代碼就有可能成為攻擊者的目標。
天眼舉一個簡單的例子。在網頁中可以嵌入SQL代碼。而攻擊者就可以利用這些SQL代碼來發動攻擊,來獲取管理員的密碼等等破壞性的動作。
有時候訪問某些網站還需要有某些特定的控制項。用戶在安裝這些控制項時,其實就有可能在安裝一個木馬(這可能訪問者與被訪問者都沒有意識到)。
為此在為網站某個特定功能編寫代碼時,就要主動出擊。從編碼的設計到編寫、到測試,都需要認識到是否存在著安全的漏洞。
天眼在日常過程中,在這方面對於員工提出了很高的要求。各個員工必須對自己所開發的功能負責。
已知的病毒、木馬不能夠在所開發的插件中有機可乘。通過這層層把關,就可以提高代碼編寫的安全性。
㈦ 怎麼從網站日誌分析網站不收錄的原因
網站不收錄原因和如何解決。
一、網站不收錄的主要原因
1、網站域名之前有不良歷史記錄
在購買域名之間檢查一下域名有沒有否被注冊過,如果以前注冊過了,需要查看以前是否被K,是否被搜索引擎懲罰。順便在教大家幾個查看方法:
(1)、到域名查詢中心,比如萬網。如果以前注冊過,則要小心,查看是否被搜索引擎懲罰過。
(2)、利用site指令,查看方法,site:+域名。如果收錄為零,但外鏈很多,說明此域名被K。
(3)、直接在搜索引擎中輸入網址有記錄(需要加http://),而site卻沒有記錄,那麼也有可能被k過了。
2、網站伺服器空間的不穩定
影響網站空間不穩定的因素有虛擬主機IP被屏蔽、伺服器頻繁宕機,空間訪問速度很慢。搜索引擎蜘蛛來抓取你的網站,如果都打不開或者速度超慢,蜘蛛也沒辦法抓取,久而久之,蜘蛛光顧的次數只會越來越少,所有說空間不穩定是網站不收錄的重要因素之一,這個在購買空間的時候要注意了。
3、robots協議文件設置錯誤
有些新手對robots協議文件不是太懂,一邊禁止搜索引擎抓取或者無意中錯誤修改了robots協議文件,這就導致蜘蛛無法抓取你網站內容,也就無法收錄,最好到網路站長平台工具里的robots中檢測一下是否設置正確,你不懂robots你可以讓你的程序員檢查一下,或是找我上海老張SEO博客幫你看看也行。
4、網站頻繁的改版
網站上線後切忌不要頻繁的改版,網路最不友好的操作就是更換域名,更換空間,修改首頁標題,搞不好幾個月都沒有排名,沒收錄。最好的做法是在還沒有上線前就提前想好,上線後不要輕易改動。網站改版一定會影響收錄,頻繁的改版也是網站不收錄的重要因素之一,因為你改版所以的代碼都是有變動的,因為蜘蛛只能識別代碼的,所以你改版會讓網路蜘蛛對你的網站有一次的從新認識一樣。
5、新站整體權重低影響收錄
剛上線的新網站,權重比較低,就算你的文章是原創,內容也很豐富,搜索引擎也是不收錄的,這個時候最重要的就是提高權重,權重高了,文章自然也就收錄了,這個都是有個收錄周期的,一般都是先收錄新站的收錄,然後在慢慢的把內容收錄的頁面放出來,這個周期有的長的要1.2個月。
6、網站友情鏈接的質量影響收錄
交換友情鏈接一定要慎重,交換前要在站長工具里查看對方網站基本情況,質量好的或者權重差不多可以交換,不要與不健康的、垃圾網站、被降權的網站交換,友鏈質量也是影響網站不收錄的因素之一,這里大家一般一個月可以在第三放站長平台工具查看一下友情鏈接。
7、網站外部缺乏高質量外鏈
現在網站的高質量外鏈對網站排名仍然有作用的,網站缺少外鏈或者優質外鏈太少,也是影響網站不收錄的原因之一。到高權重平台發布相關外鏈可以吸引蜘蛛,可以增加網站收錄速度的。
8、網站優化過度
網站刻意優化,會被搜索引擎認為是作弊。比如說,關鍵詞堆砌、隱藏文字、文章中錨文本過多、錨文本都指向同一個關鍵詞、友情鏈接過多等,經常遇到網站是這么乾的,都是被懲罰了。一旦被搜索引擎識別為作弊,里K站就不遠了,自然網站也就不收錄了。
9、網站內包含灰色內容
網站中包含一些法律不允許的、明令禁止的詞語或者短語,頁面出現敏感詞等。黃、賭、博這都是搜索引擎所排斥的,當然網站也就不會被收錄了。
10、網站內容原創性低
有的網站文章原創度低或者都是採集、復制別人的內容,自己都不優化的,復制過來直接就用,這個是搜索引擎最不喜歡,搜索引擎喜歡新鮮的、沒有出現的,又能解決客戶的問題的內容。相似度太高或者直接採集的內容是網站不收錄的重要因素之一。
11、網站優化中存在作弊現象
網站優化中存在作弊現象直接導致網站不收錄、情節嚴重的直接降權、K站。作弊主要有隱藏文字、隱藏鏈接、垃圾鏈接、買賣鏈接、鏈接農場、隱藏頁面、PR劫持、橋頁、跳轉、大規模站群等,這些都是屬於黑帽SEO希望大家不要去採用。
12、網站結構層次過深
網站鏈接過深,會影響搜索引擎蜘蛛抓取,蜘蛛會迷路,時間久了,蜘蛛來的次數就會減少,最後導致網站不收錄,一般建議在三層以內。
13、搜索引擎更新新演算法
搜索引擎是經常更新演算法的,有的時候更新之後,你的網站優化不符合它的演算法,也會導致網站不收錄或者收錄減少,站長朋友不必驚慌,只需做好基礎優化,更新高質量的文章,很快網站就會恢復收錄了。
14、網站存在安全問題
網站被掛了黑鏈,植入了惡意代碼,嚴重影響了安全,搜索引擎會做出判斷,導致網站不收錄或者收錄減少。
二、網站不收錄的解決方法
1、網站上線之初,檢查域名是否注冊,是否健康。被搜索引擎懲罰的域名不注冊。
2、網站空間盡量選擇正規的、大品牌、穩定的、速度快的、功能齊全的空間商。
3、正確設置robots協議文件,如果設置錯誤修改即可,並到網路站長平台檢查。
4、網站上線後切忌頻繁改版,萬不得已需要改版,請到網路站長平台添加改版規則,申請閉站保護,使網站盡快恢復,實現收錄。
5、交換友情鏈接時,注意相關性、數量不要超過30個、注意是否健康。交換後,檢查下你的友情鏈接是否鏈接了被K的網站,對方被K,你的網站也會受到牽連的,這個時候你要在第一時間把對方的鏈接撤掉。
6、有計劃、有步驟的到高權重平台發布高質量外鏈,注意相關度,多樣化。
7、網站優化避免過度優化,關鍵詞不能堆砌、錨文本自然出現、不要使用作弊手法。
8、網站無意中出現灰色詞、敏感詞要及時修改或者刪除。
9、網站文章內容盡量保持原創或者偽原創,偽原創內容盡量修改80%以上內容,減低相似度,利於收錄。
10、網站使用正規手法,白帽SEO優化,有利於收錄,有利於排名。不要使用黑帽手法。
11、一般網站結構建議為3層,超過3層不利於蜘蛛抓取,不利於網站收錄。
12、網站應該定期檢查代碼,發現黑鏈、掛馬及時清除。定期備份,以防萬一,做好網站安全工作。
其實網站不收錄的因素很多,作為SEO人員應該學會分析,要找出不收錄的原因並解決。SEO優化工作從網站還沒上線就已經開始,網站上線後需要我們定期的檢查網站代碼,分析網站日誌,每一次的調整、修改做好記錄,方便以後網站不收錄了知道原因,才能做出相應的對策。
㈧ 用戶行為分析系統建立所需步驟和所需軟體
Web日誌挖掘分析的方法
日誌文件的格式及其包含的信息
①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico
⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426
+Firefox/1.5.0.3。
①訪問時間;②用戶IP地址;③訪問的URL,埠;④請求方法(「GET」、「POST」等);
⑤訪問模式;⑥agent,即用戶使用的操作系統類型和瀏覽器軟體。
一、日誌的簡單分析
1、注意那些被頻繁訪問的資源
2、注意那些你網站上不存在資源的請求。常見的掃描式攻擊還包括傳遞惡意參數等:
3、觀察搜索引擎蜘蛛的來訪情況
4、觀察訪客行為
應敵之策:
1、封殺某個IP
2、封殺某個瀏覽器類型(Agent)
3、封殺某個來源(Referer)
4、防盜鏈
5、文件重命名
作用:
1.對訪問時間進行統計,可以得到伺服器在某些時間段的訪問情況。
2.對IP進行統計,可以得到用戶的分布情況。
3.對請求URL的統計,可以得到網站頁面關注情況。
4.對錯誤請求的統計,可以更正有問題的頁面。
二、Web挖掘
根據所挖掘的Web 數據的類型,可以將Web 數據挖掘分為以下三類:Web 內容挖掘(Web Content Mining)、Web 結構挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也稱為Web日誌挖掘)。
①Web內容挖掘。Web內容挖掘是指從文檔的內容中提取知識。Web內容挖掘又分為文本挖掘和多媒體挖掘。目前多媒體數據的挖掘研究還處於探索階段,Web文本挖掘已經有了比較實用的功能。Web文本挖掘可以對Web上大量文檔集合的內容進行總結、分類、聚類、關聯分析,以及利用Web文檔進行趨勢預測等。Web文檔中的標記,例如<Title>和<Heading>等蘊含了額外的信息,可以利用這些信息來加強Web文本挖掘的作用。
②Web結構挖掘。Web結構挖掘是從Web的組織結構和鏈接關系中推導知識。它不僅僅局限於文檔之間的超鏈接結構,還包括文檔內部的結構。文檔中的URL目錄路徑的結構等。Web結構挖掘能夠利用網頁間的超鏈接信息對搜索引擎的檢索結果進行相關度排序,尋找個人主頁和相似網頁,提高Web搜索蜘蛛在網上的爬行效率,沿著超鏈接優先爬行。Web結構挖掘還可以用於對Web頁進行分類、預測用戶的Web鏈接使用及Web鏈接屬性的可視化。對各個商業搜索引擎索引用的頁數量進行統計分析等。
③Web使用記錄挖掘。Web使用記錄挖掘是指從Web的使用記錄中提取感興趣的模式,目前Web使用記錄挖掘方面的研究較多,WWW中的每個伺服器都保留了訪問日誌,記錄了關於用戶訪問和交互的信息,可以通過分析和研究Web日誌記錄中的規律,來識別網站的潛在用戶;可以用基於擴展有向樹模型來識別用戶瀏覽序列模式,從而進行Web日誌挖掘;可以根據用戶訪問的Web記錄挖掘用戶的興趣關聯規則,存放在興趣關聯知識庫中,作為對用戶行為進行預測的依據,從而為用戶預取一些Web頁面,加快用戶獲取頁面的速度,分析這些數據還可以幫助理解用戶的行為,從而改進站點的結構,或為用戶提供個性化的服務。
通過對Web伺服器日誌中大量的用戶訪問記錄深入分析,發現用戶的訪問模式和興趣愛好等有趣、新穎、潛在有用的以及可理解的未知信息和知識,用於分析站點的使用情況,從而輔助管理和支持決策。當前,web日誌挖掘主要被用於個性化服務與定製、改進系統性能和結構、站點修改、商業智能以及web特徵描述等諸多領域。
三、Web日誌挖掘的方法
(一)首先,進行數據的預處理。
從學習者的訪問日誌中得到的原始日誌記錄並不適於挖掘,必須進行適當的處理才能進行挖掘。因此,需要通過日誌清理,去除無用的記錄;對於某些記錄,我們還需要通過站點結構信息,把URL路徑補充成完整的訪問序列;然後劃分學習者,並把學習者的會話劃分成多個事務。
(二)其次,進行模式發現
一旦學習者會話和事務識別完成,就可以採用下面的技術進行模式發現。模式發現, 是對預處理後的數據用數據挖掘演算法來分析數據。分有統計、分類、聚類、關等多種方法。
① 路徑分析。它可以被用於判定在一個站點中最頻繁訪問的路徑,還有一些其它的有關路徑的信息通過路徑分析可以得出。路徑分析可以用來確定網站上的頻繁訪問路徑, 從而調整和優化網站結構, 使得用戶訪問所需網頁更加簡單快捷, 還可以根據用戶典型的瀏覽模式用於智能推薦和有針對性的電子商務活動。例如:70% 的學習者在訪問/ E-Business /M2時,是從/EB開始,經過/ E-Business /SimpleDescription,/ E-Business /M1;65%的學習者在瀏覽4個或更少的頁面內容後就離開了。利用這些信息就可以改進站點的設計結構。
② 關聯規則。 使用關聯規則發現方法,可以從Web的訪問事務中找到的相關性。關聯規則是尋找在同一個事件中出現的不同項的相關性,用數學模型來描述關聯規則發現的問題:x=>y的蘊含式,其中x,y為屬性——值對集(或稱為項目集),且X∩Y空集。在資料庫中若S%的包含屬性——值對集X的事務也包含屬性——值集Y,則關聯規則X=>Y的置信度為C%。
③ 序列模式。在時間戳有序的事務集中,序列模式的發現就是指那些如「一些項跟隨另一個項」這樣的內部事務模式。它能發現資料庫中如「在某一段時間內,客戶購買商品A,接著會購買商品B,爾後又購買商品C,即序列A→B→C出現的頻率高」之類的信息。序列模式描述的問題是:在給定的交易序列資料庫中,每個序列按照交易的時間排列的一組交易集,挖掘序列函數作用是返回該資料庫中高頻率出現有序列。
④ 分類分析。發現分類規則可以給出識別一個特殊群體的公共屬性的描述,這種描述可以用於分類學習者。分類包括的挖掘技術將找出定義了一個項或事件是否屬於數據中某特定子集或類的規則。該類技術是最廣泛應用於各類業務問題的一類挖掘技術。分類演算法最知名的是決策樹方法,此外還有神經元網路、Bayesian分類等。例如:在/ E-Business /M4學習過的學習者中有40%是20左右的女大學生。
⑤聚類分析。可以從Web訪問信息數據中聚類出具有相似特性的學習者。在Web事務日誌中,聚類學習者信息或數據項能夠便於開發和設計未來的教學模式和學習群體。聚類是將數據集劃分為多個類,使得在同一類中的數據之間有較高的相似度,而在不同類中的數據差別盡可能大。在聚類技術中,沒有預先定義好的類別和訓練樣本存在,所有記錄都根據彼此相似程度來加以歸類。主要演算法有k—means、DBSCAN等。聚類分析是把具有相似特徵的用戶或數據項歸類,在網站管理中通過聚類具有相似瀏覽行為的用戶。基於模糊理論的Web頁面聚類演算法與客戶群體聚類演算法的模糊聚類定義相同,客戶訪問情況可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客戶Ci和URL(Uj)間的關聯度:式中m為客戶的數量,hits(Ci)表示客戶Ci訪問URL(Uj)的次數。利用Suj和模糊理論中的相似度度量Sfij定義建立模糊相似矩陣,再根據相似類[Xi]R的定義構造相似類,合並相似類中的公共元素得到的等價類即為相關Web頁面。
⑥統計。統計方法是從Web 站點中抽取知識的最常用方法, 它通過分析會話文件, 對瀏覽時間、瀏覽路徑等進行頻度、平均值等統計分析。雖然缺乏深度, 但仍可用於改進網站結構, 增強系統安全性, 提高網站訪問的效率等。
⑦協同過濾。協同過濾技術採用最近鄰技術,利用客戶的歷史、喜好信息計算用戶之間的距離,目標客戶對特點商品的喜好程度由最近鄰居對商品的評價的加權平均值來計算。
(三)最後,進行模式分析。
模式分析。基於以上的所有過程,對原始數據進行進一步分析,找出用戶的瀏覽模式規律,即用戶的興趣愛好及習慣,並使其可視化,為網頁的規劃及網站建設的決策提供具體理論依據。其主要方法有:採用SQL查詢語句進行分析;將數據導入多維數據立方體中,用OLAP工具進行分析並給出可視化的結果輸出。(分類模式挖掘、聚類模式挖掘、時間序列模式挖掘、序列模式挖掘、關聯規則等)
四、關聯規則
(一)關聯規則
顧名思義,關聯規則(association rule)挖掘技術用於於發現資料庫中屬性之間的有趣聯系。一般使用支持度(support)和置信度(confidence)兩個參數來描述關聯規則的屬性。
1.支持度。規則 在資料庫 中的支持度 是交易集中同時包含 , 的事務數與所有事務數之比,記為 。支持度描述了 , 這兩個項集在所有事務中同時出現的概率。
2.置信度。規則 在事務集中的置信度(confidence)是指同時包含 , 的事務數與包含 的事務數之比,它用來衡量關聯規則的可信程度。記為
規則 A Þ C:支持度= support({A}È{C}) = 50%,置信度= support({A}È{C})/support({A}) = 66.6%
(二)Apriori方法簡介
Apriori演算法最先是由Agrawal等人於1993年提出的,它的基本思想是:首先找出所有具有超出最小支持度的支持度項集,用頻繁的(k—1)-項集生成候選的頻繁k-項集;其次利用大項集產生所需的規則;任何頻繁項集的所有子集一定是頻繁項集是其核心。
Apriori演算法需要兩個步驟:第一個是生成條目集;第二個是使用生成的條目集創建一組關聯規則。當我們把最小置信度設為85%,通過關聯規則的形成以及對應置信度的計算,我們可以從中得到以下有用的信息:
1.置信度大於最小置信度時:我們可以這樣認為,用戶群體在瀏覽相關網頁時,所呈列的鏈接之間是有很大關聯的,他們是用戶群的共同愛好,通過網頁布局的調整,從某種意義上,可以帶來更高的點擊率及潛在客戶;
2.置信度小於最小置信度時:我們可以這樣認為,用戶群體對所呈列鏈接之間沒太多的關聯,亦或關聯規則中的鏈接在爭奪用戶。
五、網站中Web日誌挖掘內容
(1)網站的概要統計。網站的概要統計包括分析覆蓋的時間、總的頁面數、訪問數、會話數、惟一訪問者、以及平均訪問、最高訪問、上周訪問、昨日訪問等結果集。
(2)內容訪問分析。內容訪問分析包括最多及最少被訪問的頁面、最多訪問路徑、最多訪問的新聞、最高訪問的時間等。
(3)客戶信息分析。客戶信息分析包括訪問者的來源省份統計、訪問者使用的瀏覽器及操作系統分析、訪問來自的頁面或者網站、來自的IP地址以及訪問者使用的搜索引擎。
(4)訪問者活動周期行為分析。訪問者活動周期行為分析包括一周7天的訪問行為、一天24小時的訪問行為、每周的最多的訪問日、每天的最多訪問時段等。
(5)主要訪問錯誤分析。主要訪問錯誤分析包括服務端錯誤、頁面找不到錯誤等。
(6)網站欄目分析。網站欄目分析包括定製的頻道和欄目設定,統計出各個欄目的訪問情況,並進行分析。
(7)商務網站擴展分析。商務網站擴展分析是專門針對專題或多媒體文件或下載等內容的訪問分析。
(8)有4個方向可以選擇:①對用戶點擊行為的追蹤,click stream研究;②對網頁之間的關聯規則的研究;③對網站中各個頻道的瀏覽模式的研究;④根據用戶瀏覽行為,對用戶進行聚類,細分研究;(如果你能夠結合現有的互聯網產品和應用提出一些自己的建議和意見,那就更有價值了。)
(9)發現用戶訪問模式。通過分析和探究Web日誌記錄中的規律,可以識別電子商務的潛在客戶,提高對最終用戶的服務質量,並改進Web伺服器系統的性能。
(10)反競爭情報活動。反競爭情報是企業競爭情報活動的重要組成部分。
六、相關軟體及演算法
(一)相關軟體:
1.數據挖掘的專用軟體wake。
2.用OLAP工具
3.已經有部分公司開發出了商用的網站用戶訪問分析系統,如WebTrends公司的CommerceTrends 3.0,它能夠讓電子商務網站更好地理解其網站訪問者的行為,幫助網站採取一些行動來將這些訪問者變為顧客。CommerceTrends主要由3部分組成:Report Generation Server、Campain Analyzer和Webhouse Builder。
4.Accrue公司的Accrue Insight,它是一個綜合性的Web分析工具,它能夠對網站的運行狀況有個深入、細致和准確的分析,通過分析顧客的行為模式,幫助網站採取措施來提高顧客對於網站的忠誠度,從而建立長期的顧客關系。
(二)相關演算法:
1.運用各種演算法進行數據挖掘:GSP演算法, Prefixspana演算法,
2.關聯規則分析:Apriori、FP-growth演算法等。
3.Apriori演算法及其變種演算法
4.基於資料庫投影的序列模式生長技術(database project based sequential pattern growth)
5. Wake演算法、MLC++等
6. PageRank演算法和HITS演算法利用Web頁面間的超鏈接信息計算「權威型」(Authorities)網頁和「目錄型」(Hubs)網頁的權值。Web結構挖掘通常需要整個Web的全局數據,因此在個性化搜索引擎或主題搜索引擎研究領域得到了廣泛的應用。
7.參考檢索引擎的挖掘演算法,比如Apache的lucene等。
㈨ web挖掘怎麼實現
截止到今天為止,我尚不知道有什麼有價值的web挖掘系統存在,不過您可以參考檢索引擎的挖掘演算法,比如Apache的lucene等
http://lucene.apache.org/java/docs/index.html
-------------
並為您附錄以下信息:
近年來,隨著 Internet/Web技術的快速普及和迅猛發展,使各種信息可以以非常低的成本在網路上獲得,由於Internet/WWW在全球互連互通,可以從中取得的數據量難以計算,而且Internet/WWW的發展趨勢繼續看好,特別是電子商務的蓬勃發展為網路應用提供了強大支持,如何在WWW這個全球最大的數據集合中發現有用信息無疑將成為數據挖掘研究的熱點。
Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域,包括資料庫技術、信息獲取技術、統計學、人工智慧中的機器學習和神經網路等。
2.Web挖掘流程
與傳統數據和數據倉庫相比,Web上的信息是非結構化或半結構化的、動態的、並且是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須經過必要的數據處理。典型Web挖掘的處理流程如下[3]:
1.查找資源:任務是從目標Web文檔中得到數據,值得注意的是有時信息資源不僅限於在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網站的日誌數據甚至是通過Web形成的交易資料庫中的數據。
2.信息選擇和預處理:任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多餘格式標記、自動識別段落或者欄位並將數據組織成規整的邏輯形式甚至是關系表。
3.模式發現:自動進行模式發現。可以在同一個站點內部或在多個站點之間進行。
4.模式分析:驗證、解釋上一步驟產生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。
Web挖掘作為一個完整的技術體系,在進行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當重要。信息獲得(IR)的目的在於找到相關Web文檔,它只是把文檔中的數據看成未經排序的片語的集合,而信息抽取(IE)的目的在於從文檔中找到需要的數據項目,它對文檔的結構合表達的含義感興趣,它得一個重要任務就是對數據進行組織整理並適當建立索引。
信息獲得(IR)和信息抽取(IE)技術的研究已近有很長時間,隨著Web技術的發展,基於Web技術的IR、 IE得到了更多的重視。由於Web 數據量非常大,而且可能動態變化,用原來手工方式進行信息收集早已經力不從心,目前的研究方向是用自動化、半自動化的方法在Web上進行IR和IE。在 Web環境下既要處理非結構化文檔,又要處理半結構化的數據,最近幾年在這兩方面都有相應的研究成果和具體應用,特別是在大型搜索引擎中得到了很好的應用。
3.Web挖掘分類及各自的研究現狀及發展
根據對Web數據的感興趣程度不同,Web挖掘一般可以分為三類:Web內容挖掘(Web Content mining)、 Web結構挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
3.1、Web內容挖掘:
指從Web內容/數據/文檔中發現有用信息,Web上的信息五花八門,傳統的Internet由各種類型的服務和數據源組成,包括WWW、FTP、Telnet等,現在有更多的數據和埠可以使用,比如政府信息服務、數字圖書館、電子商務數據,以及其他各種通過 Web可以訪問的資料庫。Web內容挖掘的對象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數據。其中針對無結構化文本進行的Web挖掘被歸類到基於文本的知識發現(KDT)領域,也稱文本數據挖掘或文本挖掘,是Web挖掘中比較重要的技術領域,也引起了許多研究者的關注。最近在Web多媒體數據挖掘方面的研究成為另一個熱點。
Web內容挖掘一般從兩個不同的觀點來進行研究。從資源查找(IR)的觀點來看,Web內容挖掘的任務是從用戶的角度出發,怎樣提高信息質量和幫助用戶過濾信息。而從DB的角度講Web內容挖掘的任務主要是試圖對Web上的數據進行集成、建模,以支持對Web數據的復雜查詢。
3.1.1從資源查找(Information Retrival)的觀點挖掘非結構化文檔:
非結構化文檔主要指Web上的自由文本,包括小說、新聞等。在這方面的研究相對比較多一些,大部分研究都是建立在詞彙袋(bag of words)或稱向量表示法(vector representation)的基礎上,這種方法將單個的詞彙看成文檔集合中的屬性,只從統計的角度將詞彙孤立地看待而忽略該詞彙出現的位置和上下文環境。屬性可以是布爾型,根據詞彙是否在文檔中出現而定,也可以有頻度,即該詞彙在文檔中的出現頻率。這種方法可以擴展為選擇終結符、標點符號、不常用詞彙的屬性作為考察集合。詞彙袋方法的一個弊端是自由文本中的數據豐富,詞彙量非常大,處理起來很困難,為解決這個問題人們做了相應的研究,採取了不同技術,如信息增益,交叉熵、差異比等,其目的都是為了減少屬性。另外,一個比較有意義的方法是潛在語義索引(Latent Semantic Indexing),它通過分析不同文檔中相同主題的共享詞彙,找到他們共同的根,用這個公共的根代替所有詞彙,以此來減少維空間。例如: 「informing」、「information」、「informer」、「informed」可以用他們的根「inform」來表示,這樣可以減少屬性集合的規模。
其他的屬性表示法還有詞彙在文檔中的出現位置、層次關系、使用短語、使用術語、命名實體等,目前還沒有研究表明一種表示法明顯優於另一種。
用資源查找(Information Retrival)的觀點挖掘半結構化文檔:
與非結構化數據相比,Web上的半結構化文檔挖掘指在加入了HTML、超連接等附加結構的信息上進行挖掘,其應用包括超連接文本的分類、聚類、發現文檔之間的關系、提出半結構化文檔中的模式和規則等。
3.1.2從資料庫(Database)的觀點挖掘非結構化文檔:
資料庫技術應用於Web挖掘主要是為了解決Web信息的管理和查詢問題。這些問題可以分為三類:Web信息的建模和查詢;信息抽取與集成;Web站點建構和重構。
從資料庫的觀點進行Web內容挖掘主要是試圖建立Web站點的數據模型並加以集成,以支持復雜查詢,而不止是簡單的基於關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web數據倉庫或Web知識庫或虛擬資料庫來實現。相關研究主要是基於半結構化數據進行的。
資料庫觀點主要利用OEM(Object Exchange Model)模型將半結構化數據表示成標識圖。OEM中的每個對象都有對象標識(OID)和值,值可以是原子類型,如整型、字元串型、gif、html 等,也可以是一個復合類型,以對象引用集合的形式表示。由於Web數據量非常龐大,從應用的角度考慮,很多研究只處理辦結構化數據的一個常用自集。一些有意義的應用是建立多層資料庫(MLDB),每一層是它下面層次的概化,這樣就可以進行一些特殊的查詢和信息處理。對於在半結構化數據上的查詢語言研究也得到了人們的重視並做了專題研究。
由於在資料庫觀點下數據的表示方法比較特殊,其中包含了關系層次和圖形化的數據,所以大部分建立在扁平數據集合之上的數據挖掘方法不能直接使用,目前已經有人針對多層資料庫挖掘演算法進行研究。
3.2、Web結構挖掘:
Web結構挖掘的對象是Web本身的超連接,即對Web文檔的結構進行挖掘。對於給定的Web文檔集合,應該能夠通過演算法發現他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關系,引用文檔對被引用文檔的說明往往更客觀、更概括、更准確。
Web結構挖掘在一定程度上得益於社會網路和引用分析的研究。把網頁之間的關系分為incoming連接和 outgoing連接,運用引用分析方法找到同一網站內部以及不同網站之間的連接關系。在Web結構挖掘領域最著名的演算法是HITS演算法和 PageRank演算法。他們的共同點是使用一定方法計算Web頁面之間超連接的質量,從而得到頁面的權重。著名的Clever和Google搜索引擎就採用了該類演算法。
此外,Web結構挖掘另一個嘗試是在Web數據倉庫環境下的挖掘,包括通過檢查同一台伺服器上的本地連接衡量 Web結構挖掘Web站點的完全性,在不同的Web數據倉庫中檢查副本以幫助定位鏡像站點,通過發現針對某一特定領域超連接的層次屬性去探索信息流動如何影響Web站點的設計。
3.3、Web用法挖掘(Web usage Mining):
即Web使用記錄挖掘,在新興的電子商務領域有重要意義,它通過挖掘相關的Web日誌記錄,來發現用戶訪問 Web頁面的模式,通過分析日誌記錄中的規律,可以識別用戶的忠實度、喜好、滿意度,可以發現潛在用戶,增強站點的服務競爭力。Web使用記錄數據除了伺服器的日誌記錄外還包括代理伺服器日誌、瀏覽器端日誌、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、滑鼠點擊流等一切用戶與站點之間可能的交互記錄。可見Web使用記錄的數據量是非常巨大的,而且數據類型也相當豐富。根據對數據源的不同處理方法,Web 用法挖掘可以分為兩類,一類是將Web使用記錄的數據轉換並傳遞進傳統的關系表裡,再使用數據挖掘演算法對關系表中的數據進行常規挖掘;另一類是將Web 使用記錄的數據直接預處理再進行挖掘。Web 用法挖掘中的一個有趣的問題是在多個用戶使用同一個代理伺服器的環境下如何標識某個用戶,如何識別屬於該用戶的會話和使用記錄,這個問題看起來不大,但卻在很大程度上影響著挖掘質量,所以有人專門在這方面進行了研究。通常來講,經典的數據挖掘演算法都可以直接用到Web 用法挖掘上來,但為了提高挖掘質量,研究人員在擴展演算法上進行了努力,包括復合關聯規則演算法、改進的序列發現演算法等。
在[4]中,根據數據來源、數據類型、數據集合中的用戶數量、數據集合中的伺服器數量等將Web 用法挖掘分為五類:
●個性挖掘:針對單個用戶的使用記錄對該用戶進行建模,結合該用戶基本信息分析他的使用習慣、個人喜好,目的是在電子商務環境下為該用戶提供與眾不同的個性化服務。
●系統改進:Web服務(資料庫、網路等)的性能和其他服務質量是衡量用戶滿意度的關鍵指標,Web 用法挖掘可以通過用戶的擁塞記錄發現站點的性能瓶頸,以提示站點管理者改進Web緩存策略、網路傳輸策略、流量負載平衡機制和數據的分布策略。此外,可以通過分析網路的非法入侵數據找到系統弱點,提高站點安全性,這在電子商務環境下尤為重要。
●站點修改:站點的結構和內容是吸引用戶的關鍵。Web 用法挖掘通過挖掘用戶的行為記錄和反饋情況為站點設計者提供改進的依,比如頁面連接情況應如何組織、那些頁面應能夠直接訪問等。
●智能商務:用戶怎樣使用Web站點的信息無疑是電子商務銷售商關心的重點,用戶一次訪問的周期可分為被吸引、駐留、購買和離開四個步驟,Web用法挖掘可以通過分析用戶點擊流等Web日誌信息挖掘用戶行為的動機,以幫助銷售商合理安排銷售策略。
●Web特徵描述:這類研究跟關注這樣通過用戶對站點的訪問情況統計各個用戶在頁面上的交互情況,對用戶訪問情況進行特徵描述。
4.結束語
盡管Web挖掘的形式和研究方向層出不窮,但我認為隨著電子商務的興起和迅猛發展,未來Web挖掘的一個重要應用方向將是電子商務系統。而與電子商務關系最為密切的是用法挖掘(Usage Mining),也就是說在這個領域將會持續得到更多的重視。另外,在搜索引擎的研究方面,結構挖掘的研究已經相對成熟,基於文本的內容挖掘也已經有許多研究,下一步將會有更多的研究者把多媒體挖掘最為研究方向。
㈩ 如今一些公司在做的日誌分析處理,就是利用數據挖掘演算法得到有用信息。。目前用的最多的日誌是什麼格式
基本就是linux apache和微軟Web Sever,還有嵌入代碼的自定義格式。但都不固定,需要你根據要分析的日誌自己進行識別和處理。你可以參照Web-IA說明,看是否有所幫助。