導讀:
編者按:機器學習是目前最炙手可熱的技術之一,各大公司都在積極招聘相關的程序猿,來填補機器學習和深度學習代碼編寫的空缺。誠然,根據相關的招聘統計數據,Python
編者按:機器學習是目前最炙手可熱的技術之一,各大公司都在積極招聘相關的程序猿,來填補機器學習和深度學習代碼編寫的空缺。誠然,根據相關的招聘統計數據,Python 語言目前已經超越 Java 成為雇主最亟須的機器學習編程技能。但事實上,Java 在項目開發中仍然發揮著不可替代的作用,并且許多流行的機器學習框架本身就是由 Java 寫成的。因此,基于 Java 語言,今天我們在這里推薦五個業內頂尖的機器學習庫。原文載于jaxenter.com網站,雷鋒網編譯。
Weka
地址:http://www.cs.waikato.ac.nz/ml/weka/index.html
毫無疑問,Weka 是目前首選的 Java 機器學習庫。
它由新西蘭懷卡托大學(University of Waikato)的機器學習項目組研發。其命名來源于一種新西蘭特有的不會飛的鳥——新西蘭秧雞,新西蘭秧雞的英文名稱就是 Weka。按照官網描述,Weka 吸收了許多目前常用的機器學習算法,并且完全基于 Java 環境,開源,免費,具有易于使用的圖形界面,適合于數據挖掘,數據分析和預測建模等多種應用場景。
來自懷卡托大學的計算機科學教授 Eibe Frank 表示:“ Weka 最大的優勢在于分類,因此需要自動數據分類的應用程序可以從中獲益。但同時它也支持數據預處理、聚類、關聯規則挖掘、時間序列預測、特征選擇、和異常檢測等場景。”
開發者可以直接通過 Weka 軟件處理目標數據集,同時也支持用戶在自己編寫的代碼中調用,將 Weka 視為一個靈活的組件。更貼心的是,懷卡托大學還提供了許多免費的基于 Weka 的數據挖掘和機器學習視頻教程,感興趣的朋友可以在 Weka 官網點擊查看。
Massive Online Analysis (MOA)
地址:http://moa.cms.waikato.ac.nz/
和 Weka 一脈相承,MOA 的命名也是來源于一種新西蘭特有的無翼大鳥——新西蘭恐鳥(目前已滅絕)。MOA 也是基于 Java 環境,開源,免費,在面對復雜問題時,MOA 還能和 Weka 協同工作。
MOA 在運算效率和內存占用方面都做了特殊優化,通過提供易于擴展的底層結構、可復用的數據流分析設置以及一系列內部實現好機器學習算法,MOA 為實時數據流分析提供了一個非常優秀的基準框架,因此 在實時數據流挖掘領域的應用非常廣泛。其內部實現的機器學習算法包括:分類、回歸、聚類、孤立點檢測、概念漂移檢測和推薦系統等。此外,MOA 還提供了多種評估工具,以及活躍的社區討論、博客等配套資源。
Deeplearning4j
地址:https://deeplearning4j.org/
Deeplearning4j(Deep Learning For Java)是 Java 和 Scala 環境下的一個開源分布式的深度學習項目,由總部位于美國舊金山的商業智能和企業軟件公司 Skymind 牽頭開發,并得到了騰訊的投資。正如它的命名,Deeplearning4j 的運行需要 Java 虛擬機 JVM 的支持。
去年,JAXenter 社區曾提名 Deeplearning4j 作為 Java 生態系統最具創新的貢獻者之一。
Deeplearning4j 旨在為工作在 Hadoop 框架下的 Java、Scala 和 Clojure 程序員提供一個可以靈活 DIY 的機器學習工具。團隊在官網表示,他們希望通過一些機器學習算法的開發,將商業帶入智能化數據的時代。也正是為了實現這一理想,惠及更多的用戶,因此選擇了移植性更好的 Java 環境來實現這些算法。目前,Deeplearning4j 在模式識別、時間序列檢測和基于語音、文本的情感識別方面應用廣泛,包括谷歌、Facebook和微軟等巨頭公司都是它的用戶。
MALLET
地址:http://mallet.cs.umass.edu/
MALLET主要由來自麻省大學(University of Massachusetts)的Andrew McCallum教授和其學生開發,是一個基于 Java 環境的開源機器學習工具包。主要應用于統計自然語言處理,文檔分類,聚類,主題建模,信息提取等 文本類分析場景。
MALLET 內部實現了許多功能強大的工具,包括用于文檔分類的高級工具,用于序列標記的工具,和用于主題建模的工具等。MALLET 還支持各種類型的算法,包括樸素貝葉斯,決策樹和最大熵等。此外,MALLET 還提供了許多例程,包括分詞,刪除停用詞,將文本轉換為向量表示等。
ELKI
地址:https://elki-project.github.io/
ELKI 的全稱是:Environment for Developing KDD-Applications Supported by Index-Structures,即 由索引結構支持的 KDD 應用開發環境,這里 KDD 是指 Knowledge Discovery in Database,即知識發現。
ELKI 也是一款知名的基于 Java 環境的數據挖掘軟件。ELKI 的重點是算法研究,強調聚類分析,數據庫索引和孤立點檢測等無監督方法。ELKI 可以對數據挖掘算法和數據管理任務進行各自獨立的分析,這在其他數據挖掘框架(如 Weta 和 Rapidminer)中是獨一無二的。此外,ELKI 還支持各種數據類型和文件格式,以及各種相似性度量方法。
ELKI 專為研究人員和學生設計,提供了大量可靈活配置的算法參數,以便進行簡單和公平的算法評估。目前 ELKI 已經被廣泛應用于各種數據科學的相關領域,包括鯨魚的回聲定位,航天飛行操作,共享單車分配和交通預測等。
來源:jaxenter,雷鋒網(公眾號:雷鋒網)編譯
雷鋒網相關閱讀:
Python、R、Java、 C++ 等:從業界反饋看機器學習語言趨勢
數據科學入門難?老司機為你盤點 24 門精品課程
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。
看文倉www.kanwencang.com網友整理上傳,為您提供最全的知識大全,期待您的分享,轉載請注明出處。
歡迎轉載:http://www.kanwencang.com/xinwen/20170311/119539.html
文章列表