❶ WEB日誌換有關web日誌挖掘方面的外文翻譯 要中英對照 WEB日誌有10份左右
各部分公布
❷ 現在要做基於Web日誌挖掘的數據預處理,有沒有可以用來做實驗的現成的Web伺服器日誌文件數據集啊,跪求!
一般的web日誌數據都是公司的財富,不會輕易公開
如果你只需要樣例,可以去CSDN下載一些,有很多人公開,但是需要C幣,這個得自己想點辦法
❸ 基於web日誌的用戶訪問模式挖掘有什麼特點
以實際的月度Web日誌數據為挖掘對象,運用統計分析方法、回歸分析方法以及關聯規則方法等數據挖掘技術對Web日誌數據進行了較為深入和全面的分析挖掘。 通過統計分析方法,發現了用戶訪問行為的時間特徵和信息需求特徵,並分析了影響網路運行狀況的各種因素。 運用回歸分析方法建立了預測分時段用戶訪問量的回歸方程式
❹ 用戶行為分析系統建立所需步驟和所需軟體
Web日誌挖掘分析的方法
日誌文件的格式及其包含的信息
①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico
⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426
+Firefox/1.5.0.3。
①訪問時間;②用戶IP地址;③訪問的URL,埠;④請求方法(「GET」、「POST」等);
⑤訪問模式;⑥agent,即用戶使用的操作系統類型和瀏覽器軟體。
一、日誌的簡單分析
1、注意那些被頻繁訪問的資源
2、注意那些你網站上不存在資源的請求。常見的掃描式攻擊還包括傳遞惡意參數等:
3、觀察搜索引擎蜘蛛的來訪情況
4、觀察訪客行為
應敵之策:
1、封殺某個IP
2、封殺某個瀏覽器類型(Agent)
3、封殺某個來源(Referer)
4、防盜鏈
5、文件重命名
作用:
1.對訪問時間進行統計,可以得到伺服器在某些時間段的訪問情況。
2.對IP進行統計,可以得到用戶的分布情況。
3.對請求URL的統計,可以得到網站頁面關注情況。
4.對錯誤請求的統計,可以更正有問題的頁面。
二、Web挖掘
根據所挖掘的Web 數據的類型,可以將Web 數據挖掘分為以下三類:Web 內容挖掘(Web Content Mining)、Web 結構挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也稱為Web日誌挖掘)。
①Web內容挖掘。Web內容挖掘是指從文檔的內容中提取知識。Web內容挖掘又分為文本挖掘和多媒體挖掘。目前多媒體數據的挖掘研究還處於探索階段,Web文本挖掘已經有了比較實用的功能。Web文本挖掘可以對Web上大量文檔集合的內容進行總結、分類、聚類、關聯分析,以及利用Web文檔進行趨勢預測等。Web文檔中的標記,例如<Title>和<Heading>等蘊含了額外的信息,可以利用這些信息來加強Web文本挖掘的作用。
②Web結構挖掘。Web結構挖掘是從Web的組織結構和鏈接關系中推導知識。它不僅僅局限於文檔之間的超鏈接結構,還包括文檔內部的結構。文檔中的URL目錄路徑的結構等。Web結構挖掘能夠利用網頁間的超鏈接信息對搜索引擎的檢索結果進行相關度排序,尋找個人主頁和相似網頁,提高Web搜索蜘蛛在網上的爬行效率,沿著超鏈接優先爬行。Web結構挖掘還可以用於對Web頁進行分類、預測用戶的Web鏈接使用及Web鏈接屬性的可視化。對各個商業搜索引擎索引用的頁數量進行統計分析等。
③Web使用記錄挖掘。Web使用記錄挖掘是指從Web的使用記錄中提取感興趣的模式,目前Web使用記錄挖掘方面的研究較多,WWW中的每個伺服器都保留了訪問日誌,記錄了關於用戶訪問和交互的信息,可以通過分析和研究Web日誌記錄中的規律,來識別網站的潛在用戶;可以用基於擴展有向樹模型來識別用戶瀏覽序列模式,從而進行Web日誌挖掘;可以根據用戶訪問的Web記錄挖掘用戶的興趣關聯規則,存放在興趣關聯知識庫中,作為對用戶行為進行預測的依據,從而為用戶預取一些Web頁面,加快用戶獲取頁面的速度,分析這些數據還可以幫助理解用戶的行為,從而改進站點的結構,或為用戶提供個性化的服務。
通過對Web伺服器日誌中大量的用戶訪問記錄深入分析,發現用戶的訪問模式和興趣愛好等有趣、新穎、潛在有用的以及可理解的未知信息和知識,用於分析站點的使用情況,從而輔助管理和支持決策。當前,web日誌挖掘主要被用於個性化服務與定製、改進系統性能和結構、站點修改、商業智能以及web特徵描述等諸多領域。
三、Web日誌挖掘的方法
(一)首先,進行數據的預處理。
從學習者的訪問日誌中得到的原始日誌記錄並不適於挖掘,必須進行適當的處理才能進行挖掘。因此,需要通過日誌清理,去除無用的記錄;對於某些記錄,我們還需要通過站點結構信息,把URL路徑補充成完整的訪問序列;然後劃分學習者,並把學習者的會話劃分成多個事務。
(二)其次,進行模式發現
一旦學習者會話和事務識別完成,就可以採用下面的技術進行模式發現。模式發現, 是對預處理後的數據用數據挖掘演算法來分析數據。分有統計、分類、聚類、關等多種方法。
① 路徑分析。它可以被用於判定在一個站點中最頻繁訪問的路徑,還有一些其它的有關路徑的信息通過路徑分析可以得出。路徑分析可以用來確定網站上的頻繁訪問路徑, 從而調整和優化網站結構, 使得用戶訪問所需網頁更加簡單快捷, 還可以根據用戶典型的瀏覽模式用於智能推薦和有針對性的電子商務活動。例如:70% 的學習者在訪問/ E-Business /M2時,是從/EB開始,經過/ E-Business /SimpleDescription,/ E-Business /M1;65%的學習者在瀏覽4個或更少的頁面內容後就離開了。利用這些信息就可以改進站點的設計結構。
② 關聯規則。 使用關聯規則發現方法,可以從Web的訪問事務中找到的相關性。關聯規則是尋找在同一個事件中出現的不同項的相關性,用數學模型來描述關聯規則發現的問題:x=>y的蘊含式,其中x,y為屬性——值對集(或稱為項目集),且X∩Y空集。在資料庫中若S%的包含屬性——值對集X的事務也包含屬性——值集Y,則關聯規則X=>Y的置信度為C%。
③ 序列模式。在時間戳有序的事務集中,序列模式的發現就是指那些如「一些項跟隨另一個項」這樣的內部事務模式。它能發現資料庫中如「在某一段時間內,客戶購買商品A,接著會購買商品B,爾後又購買商品C,即序列A→B→C出現的頻率高」之類的信息。序列模式描述的問題是:在給定的交易序列資料庫中,每個序列按照交易的時間排列的一組交易集,挖掘序列函數作用是返回該資料庫中高頻率出現有序列。
④ 分類分析。發現分類規則可以給出識別一個特殊群體的公共屬性的描述,這種描述可以用於分類學習者。分類包括的挖掘技術將找出定義了一個項或事件是否屬於數據中某特定子集或類的規則。該類技術是最廣泛應用於各類業務問題的一類挖掘技術。分類演算法最知名的是決策樹方法,此外還有神經元網路、Bayesian分類等。例如:在/ E-Business /M4學習過的學習者中有40%是20左右的女大學生。
⑤聚類分析。可以從Web訪問信息數據中聚類出具有相似特性的學習者。在Web事務日誌中,聚類學習者信息或數據項能夠便於開發和設計未來的教學模式和學習群體。聚類是將數據集劃分為多個類,使得在同一類中的數據之間有較高的相似度,而在不同類中的數據差別盡可能大。在聚類技術中,沒有預先定義好的類別和訓練樣本存在,所有記錄都根據彼此相似程度來加以歸類。主要演算法有k—means、DBSCAN等。聚類分析是把具有相似特徵的用戶或數據項歸類,在網站管理中通過聚類具有相似瀏覽行為的用戶。基於模糊理論的Web頁面聚類演算法與客戶群體聚類演算法的模糊聚類定義相同,客戶訪問情況可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客戶Ci和URL(Uj)間的關聯度:式中m為客戶的數量,hits(Ci)表示客戶Ci訪問URL(Uj)的次數。利用Suj和模糊理論中的相似度度量Sfij定義建立模糊相似矩陣,再根據相似類[Xi]R的定義構造相似類,合並相似類中的公共元素得到的等價類即為相關Web頁面。
⑥統計。統計方法是從Web 站點中抽取知識的最常用方法, 它通過分析會話文件, 對瀏覽時間、瀏覽路徑等進行頻度、平均值等統計分析。雖然缺乏深度, 但仍可用於改進網站結構, 增強系統安全性, 提高網站訪問的效率等。
⑦協同過濾。協同過濾技術採用最近鄰技術,利用客戶的歷史、喜好信息計算用戶之間的距離,目標客戶對特點商品的喜好程度由最近鄰居對商品的評價的加權平均值來計算。
(三)最後,進行模式分析。
模式分析。基於以上的所有過程,對原始數據進行進一步分析,找出用戶的瀏覽模式規律,即用戶的興趣愛好及習慣,並使其可視化,為網頁的規劃及網站建設的決策提供具體理論依據。其主要方法有:採用SQL查詢語句進行分析;將數據導入多維數據立方體中,用OLAP工具進行分析並給出可視化的結果輸出。(分類模式挖掘、聚類模式挖掘、時間序列模式挖掘、序列模式挖掘、關聯規則等)
四、關聯規則
(一)關聯規則
顧名思義,關聯規則(association rule)挖掘技術用於於發現資料庫中屬性之間的有趣聯系。一般使用支持度(support)和置信度(confidence)兩個參數來描述關聯規則的屬性。
1.支持度。規則 在資料庫 中的支持度 是交易集中同時包含 , 的事務數與所有事務數之比,記為 。支持度描述了 , 這兩個項集在所有事務中同時出現的概率。
2.置信度。規則 在事務集中的置信度(confidence)是指同時包含 , 的事務數與包含 的事務數之比,它用來衡量關聯規則的可信程度。記為
規則 A Þ C:支持度= support({A}È{C}) = 50%,置信度= support({A}È{C})/support({A}) = 66.6%
(二)Apriori方法簡介
Apriori演算法最先是由Agrawal等人於1993年提出的,它的基本思想是:首先找出所有具有超出最小支持度的支持度項集,用頻繁的(k—1)-項集生成候選的頻繁k-項集;其次利用大項集產生所需的規則;任何頻繁項集的所有子集一定是頻繁項集是其核心。
Apriori演算法需要兩個步驟:第一個是生成條目集;第二個是使用生成的條目集創建一組關聯規則。當我們把最小置信度設為85%,通過關聯規則的形成以及對應置信度的計算,我們可以從中得到以下有用的信息:
1.置信度大於最小置信度時:我們可以這樣認為,用戶群體在瀏覽相關網頁時,所呈列的鏈接之間是有很大關聯的,他們是用戶群的共同愛好,通過網頁布局的調整,從某種意義上,可以帶來更高的點擊率及潛在客戶;
2.置信度小於最小置信度時:我們可以這樣認為,用戶群體對所呈列鏈接之間沒太多的關聯,亦或關聯規則中的鏈接在爭奪用戶。
五、網站中Web日誌挖掘內容
(1)網站的概要統計。網站的概要統計包括分析覆蓋的時間、總的頁面數、訪問數、會話數、惟一訪問者、以及平均訪問、最高訪問、上周訪問、昨日訪問等結果集。
(2)內容訪問分析。內容訪問分析包括最多及最少被訪問的頁面、最多訪問路徑、最多訪問的新聞、最高訪問的時間等。
(3)客戶信息分析。客戶信息分析包括訪問者的來源省份統計、訪問者使用的瀏覽器及操作系統分析、訪問來自的頁面或者網站、來自的IP地址以及訪問者使用的搜索引擎。
(4)訪問者活動周期行為分析。訪問者活動周期行為分析包括一周7天的訪問行為、一天24小時的訪問行為、每周的最多的訪問日、每天的最多訪問時段等。
(5)主要訪問錯誤分析。主要訪問錯誤分析包括服務端錯誤、頁面找不到錯誤等。
(6)網站欄目分析。網站欄目分析包括定製的頻道和欄目設定,統計出各個欄目的訪問情況,並進行分析。
(7)商務網站擴展分析。商務網站擴展分析是專門針對專題或多媒體文件或下載等內容的訪問分析。
(8)有4個方向可以選擇:①對用戶點擊行為的追蹤,click stream研究;②對網頁之間的關聯規則的研究;③對網站中各個頻道的瀏覽模式的研究;④根據用戶瀏覽行為,對用戶進行聚類,細分研究;(如果你能夠結合現有的互聯網產品和應用提出一些自己的建議和意見,那就更有價值了。)
(9)發現用戶訪問模式。通過分析和探究Web日誌記錄中的規律,可以識別電子商務的潛在客戶,提高對最終用戶的服務質量,並改進Web伺服器系統的性能。
(10)反競爭情報活動。反競爭情報是企業競爭情報活動的重要組成部分。
六、相關軟體及演算法
(一)相關軟體:
1.數據挖掘的專用軟體wake。
2.用OLAP工具
3.已經有部分公司開發出了商用的網站用戶訪問分析系統,如WebTrends公司的CommerceTrends 3.0,它能夠讓電子商務網站更好地理解其網站訪問者的行為,幫助網站採取一些行動來將這些訪問者變為顧客。CommerceTrends主要由3部分組成:Report Generation Server、Campain Analyzer和Webhouse Builder。
4.Accrue公司的Accrue Insight,它是一個綜合性的Web分析工具,它能夠對網站的運行狀況有個深入、細致和准確的分析,通過分析顧客的行為模式,幫助網站採取措施來提高顧客對於網站的忠誠度,從而建立長期的顧客關系。
(二)相關演算法:
1.運用各種演算法進行數據挖掘:GSP演算法, Prefixspana演算法,
2.關聯規則分析:Apriori、FP-growth演算法等。
3.Apriori演算法及其變種演算法
4.基於資料庫投影的序列模式生長技術(database project based sequential pattern growth)
5. Wake演算法、MLC++等
6. PageRank演算法和HITS演算法利用Web頁面間的超鏈接信息計算「權威型」(Authorities)網頁和「目錄型」(Hubs)網頁的權值。Web結構挖掘通常需要整個Web的全局數據,因此在個性化搜索引擎或主題搜索引擎研究領域得到了廣泛的應用。
7.參考檢索引擎的挖掘演算法,比如Apache的lucene等。
❺ web日誌挖掘所用的web伺服器日誌文件都是如何獲得的 用沒有公用的數據集謝謝!!!
有,http://www.sogou.com/labs/dl/q.html
http://blog.csdn.net/discxuwei/article/details/5769480
❻ 基於web日誌的用戶訪問模式挖掘有什麼缺點
基於web日誌的用戶訪問模式挖掘我可以進行解答。
❼ 如何通過用數據挖掘技術來分析Web網站日誌
1、數據預處理階段根據挖掘的目的,對原始Web日誌文件中的數據進行提取、分解、合並、最後轉換為用戶會話文件。該階段是Web訪問信息挖掘最關鍵的階段,數據預處理包括:關於用戶訪問信息的預處理、關於內容和結構的預處理。
2、會話識別階段該階段本是屬於數據預處理階段中的一部分,這里將其劃分成單獨的一個階段,是因為把用戶會話文件劃分成的一組組用戶會話序列將直接用於挖掘演算法,它的精準度直接決定了挖掘結果的好壞,是挖掘過程中最重要的階段。
3、模式發現階段模式發現是運用各種方法和技術從Web日誌數據中挖掘和發現用戶使用Web的各種潛在的規律和模式。模式發現使用的演算法和方法不僅僅來自數據挖掘領域,還包括機器學習、統計學和模式識別等其他專業領域。
模式發現的主要技術有:統計分析(statistical analysis)、關聯規則(association rules)、聚類(clustering)、歸類(classification)、序列模式(sequential patterns)、依賴關系(dependency)。
(1)統計分析(statistical analysis):常用的統計技術有:貝葉斯定理、預測回歸、對數回歸、對數-線性回歸等。可用來分析網頁的訪問頻率,網頁的訪問時間、訪問路徑。可用於系統性能分析、發現安全漏洞、為網站修改、市場決策提供支持。
(2)關聯規則(association rules):關聯規則是最基本的挖掘技術,同時也是WUM最常用的方法。在WUM中常常用在被訪問的網頁中,這有利於優化網站組織、網站設計者、網站內容管理者和市場分析,通過市場分析可以知道哪些商品被頻繁購買,哪些顧客是潛在顧客。
(3)聚類(clustering):聚類技術是在海量數據中尋找彼此相似對象組,這些數據基於距離函數求出對象組之間的相似度。在WUM中可以把具有相似模式的用戶分成組,可以用於電子商務中市場分片和為用戶提供個性化服務。
(4)歸類(classification):歸類技術主要用途是將用戶資料歸入某一特定類中,它與機器學習關系很緊密。可以用的技術有:決策樹(decision tree)、K-最近鄰居、Naïve Bayesian classifiers、支持向量機(support vector machines)。
(5)序列模式(sequential patterns):給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素由不同項目組成,同時給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即子序列在序列集中的出現頻率不低於用戶指定的最小支持度閾值。
(6)依賴關系(dependency):一個依賴關系存在於兩個元素之間,如果一個元素A的值可以推出另一個元素B的值,則B依賴於A。
4、模式分析階段模式分析是Web使用挖掘最後一步,主要目的是過濾模式發現階段產生的規則和模式,去除那些無用的模式,並把發現的模式通過一定的方法直觀的表現出來。由於Web使用挖掘在大多數情況下屬於無偏向學習,有可能挖掘出所有的模式和規則,所以不能排除其中有些模式是常識性的,普通的或最終用戶不感興趣的,故必須採用模式分析的方法使得挖掘出來的規則和知識具有可讀性和最終可理解性。常見的模式分析方法有圖形和可視化技術、資料庫查詢機制、數理統計和可用性分析等。
❽ 如何將Web日誌文件導入資料庫
這幾天寫論文做實驗,Web日誌挖掘部分第一步就是對Web日誌進行預處理。所謂預處理就是將Web日誌中沒有用的記錄和欄位去掉。根據我的實驗需要需要保留的是有效用戶對於有效頁面的訪問時間,就這三個欄位就可以。做數據預處理的第一步是將以文本形式保存的Web日誌導入資料庫,然後利用SQL語句對其所導入的資料庫表進行操作就可以完成數據與處理。
Web日誌的形式如下圖所示:
這個部分之前一直不是很明白,詢問去年做過這個工作的兩個哥們,其中一個說用C++中STL部分可以實現,另一個說是將日誌按行讀取,分割內容存入資料庫,然後讀取下一行,卻沒有做具體工作。總之這兩個人所說的都是利用編碼來實現文本的讀取和內容的分割最後再導入資料庫。這樣在理論上是可行的,但是實際操作起來還是有很大的麻煩的,以現在的時間來看是來不及的。
還好在相關文獻上看到有人提到用SQL
Server2000種的DTS工具可以實現這個導入功能。在網上進行搜索居然沒有任何有用的類似於教程的文章,手頭還沒有SQL
Server的書籍,只能自己研究了,經過了一個小時的研究終於將這個問題解決。
Web日誌文件雖然是文本文件,但是它的後綴是.log,如果想將其導入資料庫必須首先將其後綴改稱.txt。然後打運行SQL
Server2000的服務管理器,打開企業管理器。建立新的資料庫Weblog,然後利用工具DTS進行操作,DTS即數據轉換服務。操作為「工具—〉數據轉換服務—〉導入數據」,出現如下對話框如圖2所示。
在圖3對話框中的數據源選擇文本文件,對話框變成圖4所示界面。點擊文件名處右邊的瀏覽按鈕可以選擇所要讀取的文本文件形式的日誌。這里只能讀取.txt文件,所以前面一定要將Web日誌的後綴.log改成後綴.txt。
根據圖1我們看到Web日誌頭四行都是日誌的信息,比如時間和文件格式,所以在跳過行裡面要寫跳過4行。下一步進入圖6所示界面。
在圖6種需要選擇如何對文本文件中每一行的各個欄位進行區分。選擇方式如圖中所示。由於Web日誌每行為一個記錄,每條記錄中每一個欄位中間都是用空格來進行分隔,所以選擇「其它」然後在其對話框中填入一個空格鍵「
」,系統就將對數據進行處理進行劃分,得到分割好的記錄。當然相應欄位的名稱是錯誤的,這個可以在以後生成資料庫表文件後對表進行設計修改。點擊下一步進入圖7所示界面。
單擊下一步之後就可以完成數據導入。
然後刷新資料庫Weblog,就可以看到與Web日誌同名的新的資料庫表文件。修改相應欄位的名稱,就可以完成數據的導入和資料庫表的建立。
接下來可以利用查詢分析器對Web日誌的資料庫表進行操作,完成數據預處理,進而進行日誌挖掘或者流量分析。
❾ 數據挖掘技術在Web日誌上的應用
1、報錯日誌可以查出那些錯誤具有相關性!
2、點擊流可以查出相關點擊的聯系
等等類似!
❿ 日誌挖掘和數據挖掘和web日誌挖掘有什麼區別呢
web日誌是web伺服器對用戶訪問行為的記錄。所有用戶的訪問記錄就組成一個資料庫。資料庫清理之後,就可以運用頻繁模式挖掘,聚類分析等技術挖掘有趣的模式。日誌挖掘就很寬泛了