① Web數據挖掘的介紹
《Web數據挖掘》是2009年人民郵電出版社出版的圖書,作者是查凱萊巴蒂(印度)。該書為信息檢索領域的書籍,主要深入講解了從大量非結構化Web數據中提取和產生知識的技術。
② 關於Web數據挖掘!!!
數據挖掘是建立在數據倉庫之上的,沒有一個好的數據倉庫是無法進行數據挖掘的。同意樓上說的,先對數據倉庫進行全面了解。
我覺得數據挖掘是學者專家的問題,不是一般公司可以解決的,因為裡面設計大量的演算法和理論知識
③ 《Python數據挖掘入門與實踐》pdf下載在線閱讀,求百度網盤雲資源
《Python數據挖掘入門與實踐》([澳] Robert Layton)電子書網盤下載免費在線閱讀
鏈接:https://pan..com/s/12d3rQe0uNTG98m09c12INA
書名:Python數據挖掘入門與實踐
作者:[澳] Robert Layton
譯者:杜春曉
豆瓣評分:7.9
出版社:人民郵電出版社
出版年份:2016-7
頁數:252
內容簡介:
本書作為數據挖掘入門讀物,介紹了數據挖掘的基礎知識、基本工具和實踐方法,通過循序漸進地講解演算法,帶你輕松踏上數據挖掘之旅。本書採用理論與實踐相結合的方式,呈現了如何使用決策樹和隨機森林演算法預測美國職業籃球聯賽比賽結果,如何使用親和性分析方法推薦電影,如何使用樸素貝葉斯演算法進行社會媒體挖掘,等等。本書也涉及神經網路、深度學習、大數據處理等內容。
作者簡介:
Robert Layton
計算機科學博士,網路犯罪問題和文本分析方面的專家。多年來一直熱衷於Python編程,參與過scikit-learn庫等很多開源庫的開發,曾擔任2014年度「谷歌編程之夏」項目導師。他曾與全球幾大數據挖掘公司密切合作,挖掘真實數據並研發相關應用。他的公司dataPipeline為多個行業提供數據挖掘和數據分析解決方案。
譯者簡介:
杜春曉
英語語言文學學士,軟體工程碩士。其他譯著有《電子達人——我的第一本Raspberry Pi入門手冊》《Python數據分析》。新浪微博:@宜_生。
④ 《數據挖掘概念與技術(原書第3版)》pdf下載在線閱讀全文,求百度網盤雲資源
《數據挖掘》((美)Jiawei Han)電子書網盤下載免費在線閱讀
鏈接: https://pan..com/s/1A_aVpCLktPsdS7HCMlsiZQ
書名:數據挖掘
作者:(美)Jiawei Han
譯者:范明
豆瓣評分:7.9
出版社:機械工業出版社
出版年份:2012-8
頁數:468
內容簡介:
數據挖掘領域最具里程碑意義的經典著作
完整全面闡述該領域的重要知識和技術創新
引入了許多演算法和實現示例,全部以易於理解的偽代碼編寫,適用於實際的大規模數據挖掘項目。
討論了一些高級主題,例如挖掘面向對象的關系型資料庫、空間資料庫、多媒體資料庫、時間序列資料庫、文本資料庫、萬維網以及其他領域的應用等。
全面而實用地給出用於從海量數據中獲取盡可能多信息的概念和技術。
作者簡介:
Jiawei Han(韓家煒)伊利諾伊大學厄巴納-尚佩恩分校計算機科學系Abel Bliss教授。由於在數據挖掘和資料庫系統領域卓有成效的研究工作,他曾多次獲得各種榮譽和獎勵,包括2004年ACM SIGKDD頒發的最佳創新獎,2005年IEEE Computer Society頒發的技術成就獎,2009年IEEE頒發的W. Wallace McDowell獎。他是ACM和IEEE Fellow。
Micheline Kamber 擁有加拿大康考迪亞大學計算機科學碩士學位,她是NSERC Scholar,先後在加拿大麥吉爾大學、西蒙-弗雷澤大學及瑞士從事研究工作。
Jian Pei(裴健)目前是加拿大西蒙-弗雷澤大學計算機科學學院教授。2002年,他在Jiawei Han教授的指導下獲得西蒙-弗雷澤大學博士學位。
⑤ 《數據挖掘概念與技術(原書第3版)》pdf下載在線閱讀,求百度網盤雲資源
《數據挖掘》((美)Jiawei Han)電子書網盤下載免費在線閱讀
資源鏈接:
鏈接:https://pan..com/s/1Nla-Mw4lQs5cgYnQZ-o7Ag
書名:數據挖掘
作者:(美)Jiawei Han
譯者:范明
豆瓣評分:7.9
出版社:機械工業出版社
出版年份:2012-8
頁數:468
內容簡介:數據挖掘領域最具里程碑意義的經典著作
完整全面闡述該領域的重要知識和技術創新
這是一本數據挖掘和知識發現的優秀教材,結構合理、條理清晰。本書既保留了相當篇幅講述數據挖掘的基本概念和方法,又增加了若干章節介紹數據挖掘領域最新的技術和發展,因此既適合初學者學習又適合專業人員和實踐者參考。本書視角廣闊、資料翔實、內容全面,能夠為有意深入研究相關技術的讀者提供足夠的參考和支持。總之, 強烈推薦從高年級本科生到專業人員和實踐者都來閱讀這本書!
—— 美國CHOICE雜志
這是一本非常優秀的數據挖掘教材,最新的第3版反映了數據挖掘領域的最新發展和變化。書中增加了2006年第2版以來最新的引用資料,新增小節討論可視化、模式挖掘以及最新的聚類方法。本書配有豐富及完善的教輔支持,包括配套網站、大量的習題集以及習題答案等。盡管這是一本數據挖掘的教材,但對於讀者沒有太高的要求,只需要讀者具有少量編程經驗並了解基本的資料庫設計和統計分析知識。還有兩點值得注意:第一,本書的參考書目是關於了解數據挖掘研究的非常好的參考列表;第二,書中的索引非常全面和有效,能夠幫助讀者很容易地定位相關知識點。其他學科的研究人員和分析人員,例如,流行病學家、金融分析師、心理測量研究人員,也會發現本書非常有用。
—— Computing Reviews
當代商業和科學領域大量激增的數據量要求我們採用更加復雜和精細的工具來進行數據分析、處理和挖掘。盡管近年來數據挖掘技術取得的長足進展使得我們廣泛收集數據越來越容易,但技術的發展依然難以匹配爆炸性的數據增長以及隨之而來的大量數據處理需求,因此我們比以往更加迫切地需要新技術和自動化工具來幫助我們將這些數據轉換為有用的信息和知識。
本書前版曾被KDnuggets的讀者評選為最受歡迎的數據挖掘專著,是一本可讀性極佳的教材。它從資料庫角度全面系統地介紹數據挖掘的概念、方法和技術以及技術研究進展,並重點關注近年來該領域重要和最新的課題——數據倉庫和數據立方體技術,流數據挖掘,社會網路挖掘,空間、多媒體和其他復雜數據挖掘。每章都針對關鍵專題有單獨的指導,提供最佳演算法,並對怎樣將技術運用到實際工作中給出了經過實踐檢驗的實用型規則。如果你希望自己能熟練掌握和運用當今最有力的數據挖掘技術,那本書正是你需要閱讀和學習的寶貴資源。本書是數據挖掘和知識發現領域內的所有教師、研究人員、開發人員和用戶都必讀的一本書。
【本書特色】
引入了許多演算法和實現示例,全部以易於理解的偽代碼編寫,適用於實際的大規模數據挖掘項目。
討論了一些高級主題,例如挖掘面向對象的關系型資料庫、空間資料庫、多媒體資料庫、時間序列資料庫、文本資料庫、萬維網以及其他領域的應用等。
全面而實用地給出用於從海量數據中獲取盡可能多信息的概念和技術。
作者簡介:Jiawei Han(韓家煒)伊利諾伊大學厄巴納-尚佩恩分校計算機科學系Abel Bliss教授。由於在數據挖掘和資料庫系統領域卓有成效的研究工作,他曾多次獲得各種榮譽和獎勵,包括2004年ACM SIGKDD頒發的最佳創新獎,2005年IEEE Computer Society頒發的技術成就獎,2009年IEEE頒發的W. Wallace McDowell獎。他是ACM和IEEE Fellow。
Micheline Kamber 擁有加拿大康考迪亞大學計算機科學碩士學位,她是NSERC Scholar,先後在加拿大麥吉爾大學、西蒙-弗雷澤大學及瑞士從事研究工作。
Jian Pei(裴健)目前是加拿大西蒙-弗雷澤大學計算機科學學院教授。2002年,他在Jiawei Han教授的指導下獲得西蒙-弗雷澤大學博士學位。
⑥ Web 數據挖掘如何入門
最基本的sql + python + (R or spss )
最基本的sql會就行,什麼join啊什麼的都不用管,能select * from xxx limit n啥的就足夠了。做到能批量把要用到的原始數據下載下來
python5分鍾就能上手寫,1周就能熟練的處理各種原始數據到你想要輸入給下一步的軟體的格式上。
然後用R或者spss來畫圖或者做跑各種高大上的統計模型
然後根據不同的業務自己去想挖掘的方法,什麼回歸啊,什麼SVM,什麼決策樹啊,這些東西都是工具,不是目的
至於如何有好的挖掘的idea,似乎沒有好書推薦,在工作中學吧
或者說,這就是社會學背景能帶來最大好處的地方
理論別學太多,又不是搞學術
這套東西全弄下來,也就一周兩周的事情(spss你已經會啦嘛)
⑦ Web數據挖掘的作品目錄
INTRODUCTION
1.1 Crawling and Indexing
1.2 Topic Directories
1.3 Clustering and Classification
1.4 Hyperlink Analysis
1.5 Resource Discovery and Vertical Portals
1.6 Structured vs. Unstructured Data Mining
1.7 Bibliographic Notes
PART Ⅰ INFRASTRUCTURE
2 CRAWLING THE WEB
2.1 HTML and HTTP Basics
2.2 Crawling Basics
2.3 Engineering Large-Scale Crawlers
2.3.1 DNS Caching, Prefetching, and Resolution
2.3.2 Multiple Concurrent Fetches
2.3.3 Link Extraction and Normalization
2.3.4 Robot Exclusion
2.3.5 Eliminating Already-Visited URLs
2.3.6 Spider Traps
2.3.7 Avoiding Repeated Expansion of Links on Duplicate Pages
2.3.8 Load Monitor and Manager
2.3.9 Per-Server Work-Queues
2.3.10 Text Repository
2.3.11 Refreshing Crawled Pages
2.4 Putting Together a Crawler
2.4.1 Design of the Core Components
2.4.2 Case Study: Using w3c-1 i bwww
2.5 Bibliographic Notes
3 WEB SEARCH AND INFORMATION RETRIEVAL
3.1 Boolean Queries and the Inverted Index
3.1.1 Stopwords and Stemming
3.1.2 Batch Indexing and Updates
3.1.3 Index Compression Techniques
3.2 Relevance Ranking
3.2.1 Recall and Precision
3.2.2 The Vector-Space Model
3.2.3 Relevance Feedback and Rocchio's Method
3.2.4 Probabilistic Relevance Feedback Models
3.2.5 Advanced Issues
3.3 Similarity Search
3.3.1 Handling Find-Similar Queries
3.3.2 Eliminating Near Duplicates via Shingling
3.3.3 Detecting Locally Similar Subgraphs of the Web
3.4 Bibliographic Notes
PART Ⅱ LEARNING
SIMILARITY AND CLUSTERING
4.1 Formulations and Approaches
4.1.1 Partitioning Approaches
4.1.2 Geometric Embedding Approaches
4.1.3 Generative Models and Probabilistic Approaches
4.2 Bottom-Up and Top-Down Partitioning Paradigms
4.2.1 Agglomerative Clustering
4.2.2 The k-Means Algorithm
4.3 Clustering and Visualization via Embeddings
4.3.1 Self-Organizing Maps (SOMs)
4.3.2 Multidimensional Scaling (MDS) and FastMap
4.3.3 Projections and Subspaces
4.3.4 Latent Semantic Indexing (LSI)
4.4 Probabilistic Approaches to Clustering
4.4.1 Generative Distributions for Documents
4.4.2 Mixture Models and Expectation Maximization (EM)
4.4.3 Multiple Cause Mixture Model (MCMM)
4.4.4 Aspect Models and Probabilistic LSI
4.4.5 Model and Feature Selection
4.5 Collaborative Filtering
4.5.1 Probabilistic Models
4.5.2 Combining Content-Based and Collaborative Features
4.6 Bibliographic Notes
5 SUPERVISED LEARNING
5.1 The Supervised Learning Scenario
5.2 Overview of Classification Strategies
5.3 Evaluating Text Classifiers
5.3.1 Benchmarks
5.3.2 Measures of Accuracy
5.4 Nearest Neighbor Learners
5.4.1 Pros and Cons
5.4.2 Is TFIDF Appropriate?
5.5 Feature Selection
5.5.1 Greedy Inclusion Algorithms
5.5.2 Truncation Algorithms
5.5.3 Comparison and Discussion
5.6 Bayesian Learners
5.6.1 Naive Bayes Learners
5.6.2 Small-Degree Bayesian Networks
5.7 Exploiting Hierarchy among Topics
5.7.1 Feature Selection
5.7.2 Enhanced Parameter Estimation
5.7.3 Training and Search Strategies
5.8 Maximum Entropy Learners
5.9 Discriminative Classification
5.9.1 Linear Least-Square Regression
5.9.2 Support Vector Machines
5.10 Hypertext Classification
5.10.1 Representing Hypertext for Supervised Learning
5.10.2 Rule Inction
5.11 Bibliographic Notes
6 SEMISUPERVISED LEARNING
6.1 Expectation Maximization
6.1.1 Experimental Results
6.1.2 Recing the Belief in Unlabeled Documents
6.1.3 Modeling Labels Using Many Mixture Components
……
PART Ⅲ APPLICATIONS
……
序言
This book is about finding significant statistical patterns relating hypertext documents, topics, hyperlinks, and queries and using these patterns to connect users to information they seek. The Web has become a vast storehouse of knowledge, built in a decentralized yet collaborative manner. It is a living, growing, populist, and participatory medium of expression with no central editorship. This has positive and negative implications. On the positive side, there is widespread participation in authoring content. Compared to print or broadcast media, the ratio of content creators to the audience is more equitable. On the negative side, the heterogeneity and lack of structure makes it hard to frame queries and satisfy information needs. For many queries posed with the help of words and phrases, there are thousands of apparently relevant responses, but on closer inspection these turn out to be disappointing for all but the simplest queries. Queries involving nouns and noun phrases, where the information need is to find out about the named entity, are the simplest sort of information-hunting tasks. Only sophisticated users succeed with more complex queries——for instance, those that involve articles and prepositions to relate named objects, actions, and agents. If you are a regular seeker and user of Web information, this state of affairs needs no further description.
Detecting and exploiting statistical dependencies between terms, Web pages, and hyperlinks will be the central theme in this book. Such dependencies are also called patterns, and the act of searching for such patterns is called machine learning, or data mining. Here are some examples of machine learning for Web applications. Given a crawl of a substantial portion of the Web, we may be interested in constructing a topic directory like Yahoo!, perhaps detecting the emergence and decline of prominent topics with passing time. Once a topic directory is available, we may wish to assign freshly crawled pages and sites to suitable positions in the directory.
⑧ Web數據挖掘的內容簡介
《Web數據挖掘》是適用於數據挖掘學術研究和開發的專業人員的參考書,同時也適合作為高等院校計算機及相關專業研究生的教材。書中首先論述了Web的基礎(包括Web信息採集機制、Web標引機制以及基於關鍵字或基於相似性搜索機制),然後系統地描述了Web挖掘的基礎知識,著重介紹基於超文本的機器學習和數據挖掘方法,如聚類、協同過濾、監督學習、半監督學習,最後講述了這些基本原理在Web挖掘中的應用。《Web數據挖掘》為讀者提供了堅實的技術背景和最新的知識。
⑨ 《數據可視化與數據挖掘》pdf下載在線閱讀全文,求百度網盤雲資源
《數據可視化與數據挖掘》網路網盤pdf最新全集下載:
鏈接: https://pan..com/s/1CWa-wCZ2pVVweguV0fqW2Q
簡介:數據可視化允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋,數據可視化技術在國內市場長期看好,而現階段國內相關書籍相對較少,本書選擇這個方向進行系統基礎研究,希望為那些在想此領域有所發展的讀者提供學習幫助。在本書中,我們首先介紹數據可視化的一些基本知識,隨後重點介紹使用Tableau、SAS及SPSS Modeler的可視化界面進行數據分析與數據挖掘的方法。