weka集成到web系統_最理想的JAVA報表工具有哪些

Ⅰ 國內有哪些數據分析和數據挖掘的軟體

數據挖掘工作現在很多都是寫腳本代碼進行的，像r，python，工具的話商用就是IBM的SPSS Modeler，就是以前的Clementine, 還有SAS，matlab，這些都是超貴的，excel也有數據挖掘插件。開源的也很多，像RapidMiner，Knime,Weka,Orange這些都是知名的開源數據挖掘工具。其實現在很多BI產商也出了數據挖掘工具，基於web的，還支持分布式計算，操作封裝的更容易操作，而且還能定製演算法，服務更好，這都是國產產商的優勢，像億信華辰的豌豆DM，思邁特的Smartbi Mining，另外還有些廠商叫什麼AI挖掘，那就是營銷了，蹭AI的熱度，實際還是數據挖掘的理論

Ⅱ 最理想的JAVA報表工具有哪些

看你需求了，如果是簡單的PDF，自己用iText自己寫就行了，如果是復雜的，可以使用iReport，我前公司就用這個，用了2年了，簡單容易上手，文檔也全。

Ⅲ 用web 怎麼開發一個weka系統

從你的提問感覺你是一個新手。
如果你是學生想根據語言找一份工作可以長期發展，我建議你選擇php。java的內容相對於php比較龐雜，如果不是去培訓學校進行實際的開發培訓，自己學習想達到能找工作的水平，還是需要你自己有一定的學習能力的。而p

Ⅳ 數據挖掘從入門到進階要看什麼書

數據挖掘從入門到進階要看什麼書
做數據挖掘也有些年頭了，寫這篇文一方面是讓我寫篇文，朋友作為數據挖掘方面的參考，另一方面也是有拋磚引玉之意，希望能夠和一些大牛交流，相互促進，讓大家見笑了。
Q&A：
Q:學習,最近在看集體智慧編程,樓主可否推薦下數學基礎的書?
A:我數學本身也不好自己也在偷偷補因為看的不多也不能給出個提綱式的建議只能給您列下我近期看過和在看的覺得不錯的書您看做參考吧
矩陣方面 Kaare Brandt Petersen的《The Matrix Cookbook》網易公開課中的《麻省理工公開課：線性代數》
2.概率論與數理統計方面 JohnA.Rice 的《數理統計與數據分析》《統計建模與R軟體》
3.微積分方面網易公開課中的《麻省理工學院公開課：單變數微積分》
其實您只要有了
1、概率論與數理統計以及其他統計學基礎
2、扎實的線性代數功底
3、微積分（如果能學習下實變函數和泛函分析就更好了）
這幾方面的基礎基本上機器學習的大部分演算法您都具有了其數學基礎
如果您覺得我說的太泛可以先看看《模式分類》這本書的附錄中的數學基礎這樣您就大體有個印象了
入門：
數據挖掘入門的書籍，中文的大體有這些：
Jiawei Han的《數據挖掘概念與技術》
Ian H. Witten / Eibe Frank的《數據挖掘實用機器學習技術》
Tom Mitchell的《機器學習》
TOBY SEGARAN的《集體智慧編程》
Anand Rajaraman的《大數據》
Pang-Ning Tan的《數據挖掘導論》
Matthew A. Russell的《社交網站的數據挖掘與分析》
很多人的第一本數據挖掘書都是Jiawei Han的《數據挖掘概念與技術》，這本書也是我們組老闆推薦的入門書（我個人覺得他之所以推薦是因為Han是他的老師）。其實我個人來說並不是很推薦把這本書。這本書什麼都講了，甚至很多書少有涉及的一些點比如OLAP的方面都有涉獵。但是其實這本書對於初學者不是那麼友好的，給人一種教科書的感覺，如果你有大毅力讀完這本書，也只能獲得一些零碎的概念的認識，很難上手實際的項目。
我個人推薦的入門書是這兩本：TOBY SEGARAN的《集體智慧編程》和Ian H. Witten / Eibe Frank的《數據挖掘實用機器學習技術》
《集體智慧編程》很適合希望了解數據挖掘技術的程序員，這本書講述了數據挖掘裡面的很多實用的演算法，而且最重要的是其講述的方式不是像Han那種大牛掉書袋的講法，而是從實際的例子入手，輔以python的代碼，讓你很快的就能理解到這種演算法能夠應用在哪個實際問題上，並且還能自己上手寫寫代碼。唯一的缺點是不夠深入，基本沒有數學推導，而且不夠全面，內容不夠翔實。不過作為一本入門書這些缺點反而是幫助理解和入門的優點。
推薦的另一本《數據挖掘實用機器學習技術》則相對上一本書要稍微難一點，不過在容易理解的程度上依然甩Han老師的書幾條街，其作者就是著名的Weka的編寫者。整本書的思想脈絡也是盡可能的由易到難，從簡單的模型入手擴展到現實生活中實際的演算法問題，最難能可貴的是書的最後還稍微講了下如何使用weka，這樣大家就能在學習演算法之餘能夠用weka做做小的實驗，有直觀的認識。
看完上述兩本書後，我覺得大體數據挖掘就算有個初步的了解了。往後再怎麼繼續入門，就看個人需求了。
如果是只是想要稍微了解下相關的技術，或者作為業余愛好，則可隨便再看看Anand Rajaraman的《大數據》以及Matthew A. Russell的《社交網站的數據挖掘與分析》。前者是斯坦福的」Web挖掘」這門課程的材料基礎上總結而成。選取了很多數據挖掘里的小點作為展開的，不夠系統，但講的挺好，所以適合有個初步的了解後再看。後者則亦是如此，要注意的是裡面很多api因為GFS的緣故不能直接實驗，也是個遺憾
如果是繼續相關的研究學習，我認為則還需要先過一遍Tom Mitchell的《機器學習》。這本書可以看做是對於十多年前的機器學習的一個綜述，作者簡單明了的講述了很多流行的演算法（十年前的），並且對於各個演算法的適用點和特點都有詳細的解說，輕快地在一本薄薄的小書里給了大家一個機器學習之旅。
進階：
進階這個話題就難說了，畢竟大家對於進階的理解各有不同，是個仁者見仁的問題。就我個人來說，則建議如下展開：
視頻學習方面：
可以看看斯坦福的《機器學習》這門課程的視頻，最近聽說網易公開課已經全部翻譯了，而且給出了雙語字幕，更加容易學習了^_^
書籍學習方面：
我個人推薦的是這樣：可以先看看李航的《統計學習方法》，這本書著重於數學推導，能讓我們很快的對於一些演算法的理解更加深入。有了上面這本書的基礎，就可以開始啃一些經典名著了。
這些名著看的順序可以不分先後，也可以同時學習：
Richard O. Duda的《模式分類》這本書是力薦，很多高校的數據挖掘導論課程的教科書便是這本（也是我的數據挖掘入門書，很有感情的）。如果你不通讀這本書，你會發現在你研究很多問題的時候，甚至一些相對簡單的問題（比如貝葉斯在高斯假設下為什麼退化成線性分類器）都要再重新回頭讀這本書。
Christopher M. Bishop的《Pattern Recognition And Machine Learning》這本書也是經典巨著，整本書寫的非常清爽。
The Elements of Statistical Learning》這本書豆友有句很好的吐槽「機器學習 — 從入門到精通」可以作為這本書的副標題。可以看出這本書對於機器學習進階的重要性。值得一說的是這本書雖然有中文版，但是翻譯之爛也甚是有名，聽說是學體育的翻譯的。
Hoppner, Frank的《Guide to Intelligent Data Analysis》這本書相對於上面基本經典巨著並不出名，但是寫的甚好，是knime官網上推薦的，標榜的是解決實際生活中的數據挖掘問題，講述了CRISP-DM標准化流程，每章後面給出了R和knime的應用例子。
項目方面：
事實上，我覺得從進階起就應該上手一些簡單的項目了。如果不實踐只是看書和研究演算法，我覺得是無法真正理解數據挖掘的精髓所在的。打個簡單的比方，就算你看完了C Primer、effective C 等等書籍，如果自己不寫C ，那麼自己也就會停留在hello world的級別。實踐出真知非常切合數據挖掘這門學科，實際上手項目後才會發現什麼叫」80%的准備，20%的建模」，real world的問題我認為並不是僅僅靠modeling就能很好的解決的。詳細的可以看看《Guide to Intelligent Data Analysis》就能略知一二。如果上手做推薦或者一些簡單的項目，也可以考慮用用mahout，推薦的入門手冊是《mahout in action》。項目問題說來話長，有時間會以CRISP流程為引單獨作文，這里也就不詳談了。
軟體方面：
我常用而且推薦的軟體有如下，這里只是簡單的列出，以後有時間再詳細分析和寫出入門：
Weka Java的軟體，可以集成到自己的項目中
Orange 一個用python寫的數據挖掘開源軟體，界面做的很漂亮，可以做圖形化實驗，也可以用python調用編程。
Knime 和Orange類似，特點是可以集成weka和R等開源軟體
SAS的EM模塊以及R 還有最最經典的matlab大大
這里有篇文有簡要的介紹http://www.oschina.net/question/12_14026
再往後：
再往後的其實就是我就是覺得是學數學了，然後就是深入讀一些你感興趣的topic的書籍和paper，接項目，做項目了。發展有數據分析師或者去專門的企業做數據研究員，當然混學術界的我就不清楚了。
初略寫完發現成一篇長文了，最近也是在做一個用眼底照片預測stroke的項目，比較忙，等閑下來以後也會寫些演算法或者軟體或者實際項目的心得的文。當然也只是我個人粗淺的想法，也希望能和大家有所交流，相互促進，我個人的郵箱是[email protected]，有什麼問題可以再帖子里討論，也可郵件交流^_^

Ⅳ 數據挖掘實用機器學習工具與技術怎麼樣

大數據時代應用機器學習方法解決數據挖掘問題的實用指南。
洞察隱匿於大數據中的結構模式，有效指導數據挖掘實踐和商業應用。
weka系統的主要開發者將豐富的研發、商業應用和教學實踐的經驗和技術融會貫通。
廣泛覆蓋在數據挖掘實踐中採用的演算法和機器學習技術，著眼於解決實際問題
避免過分要求理論基礎和數學知識，重點在於告訴讀者「如何去做」，同時包括許多演算法、代碼以及具體實例的實現。
將所有的概念都建立在具體實例的基礎之上，促使讀者首先考慮使用簡單的技術。如果簡單的技術不足以解決問題，再考慮提升到更為復雜的高級技術。
新版增加了大量近年來最新涌現的數據挖掘演算法和諸如Web數據挖掘等新領域的介紹，所介紹的weka系統增加了50%的演算法及大量新內容。

Ⅵ Weka研究有什麼用途

weka是數據挖掘的平台之一，weka中集成了很多演算法，主要用於數據挖掘方面，例如人臉識別，文本識別以及基因工程等等。演算法不同，效果不同，這就要仔細研究了。

Ⅶ 數據挖掘常用的軟體有哪些

1、Rapid Miner

Rapid Miner是一個數據科學軟體平台，為數據准備、機器學習、深度學習、文本挖掘和預測分析提供一種集成環境。它是領先的數據挖掘開源系統之一。該程序完全用Java編程語言編寫。該程序提供了一個選項，以便用戶試用大量可任意嵌套的操作符，這些操作符在XML文件中有詳細說明，可由Rapid Miner的圖形用戶界面來構建。

2、Orange

Orange是一個開源數據可視化、機器學習和數據挖掘工具包。它有一個可視化編程前端，可用於探索性數據分析和互動式數據可視化。Orange是一個基於組件的可視化編程軟體包，用於數據可視化、機器學習、數據挖掘和數據分析。Orange組件稱為窗口組件，范圍廣泛：從簡單的數據可視化、子集選擇和預處理，到學習演算法和預測建模的評估，不一而足。Orange的可視化編程通過界面來進行，其中工作流程通過連接預定義或用戶設計的窗口組件來創建，而高級用戶可以將Orange用作Python庫，以便操縱數據和更改窗口組件。

3、Kaggle

Kaggle是世界上數據科學家和機器學習者社區。Kaggle以開設機器學習競賽起家，但現在逐漸變成基於公共雲的數據科學平台。Kaggle是一個平台，有助於解決難題、招募強大的團隊並宣傳數據科學的力量。

4、Weka

懷卡托知識分析環境(Weka)是紐西蘭懷卡託大學開發的一套機器學習軟體。該軟體用Java編寫。它含有一系列面向數據分析和預測建模的可視化工具和演算法，附帶圖形用戶界面。Weka支持幾種標准數據挖掘任務，更具體地說是指數據預處理、聚類、分類、回歸、可視化和特徵選擇。

關於數據挖掘常用的軟體有哪些，青藤小編就和您分享到這里了。如果你對大數據工程有濃厚的興趣，希望這篇文章能夠對你有所幫助。如果您還想了解更多數據分析師、大數據工程師的技巧及素材等內容，可以點擊本站的其他文章進行學習。

weka集成到web系統

與weka集成到web系統相關的內容