文章出處

openKM

想問下有沒有這樣的開源文件管理系統，所有人都可以上傳文件，只有有權限的管理員才可以下載他人的文件？

不知道openkm能不能做到。

OpenKM是一個開放源代碼的電子文檔管理系統，它的特點是可用于大型公司或是中小企業，適應性比較強。并且在知識管理方面的加工，提供了更加靈活和成本較低的替代應用。

界面如下：

zongtui項目

項目地址：
（分布式爬蟲）http://git.oschina.net/zongtui/zongtui-webcrawler
（去重過濾器）https://git.oschina.net/zongtui/zongtui-filter
（文本分類器）https://git.oschina.net/zongtui/zongtui-classifier
（文檔目錄）https://git.oschina.net/zongtui/zongtui-doc

然后再推薦一篇文章：（深度學習 vs 機器學習 vs 模式識別）

http://www.itd4j.com/cloudcomputing/15538.html

自動化部署

請問有Java的自動化部署工具推薦不？

有時候修改幾個文件就要重新打包發布重啟，太麻煩了，請問有什么更好的辦法么？

Jenkins是一個開源軟件項目，旨在提供一個開放易用的軟件平臺，使持續集成變成可能經濟界。

云爬取

就是有一個客戶端要爬取一千個商品，他可以提交給服務器，然后有服務器在分配給其它客戶端來爬取。這樣搞性能比較高，還能逃過IP限制。

那就是用戶要爬什么資料。你就讓用戶自己去爬取。服務端只負責，接收任務，分配任務，返回任務。

等于是免費的ip池而已。。

項目新架構

經過討論，目前的項目新架構已經修改如下：

這樣，問題的集中點就在如何接入爬蟲上了，因為現在各種爬蟲已經太多，沒必要在搞一個什么新鮮的東西！

core部分的思路參考：

下一步的處理

1.通過設定規則抓取頁面；

2.設定頁面存儲方案；

3.通過頁面材料分析出內容屬性;

4.通過內容屬性生成結果;

5.通過結果進行學習;

6.通過結果生成內容;

說一下為什么接入其它的，我舉兩個例子

1、webmagic

$P{6{44@9$UV8D_I33%`X3ND[4]$

就我知道，這哥們寫了2年，基本上各種問題都遇到過。沒必要再走一遍它的路，如果有問題可以通過它預留的接口幫它完善，或者直接用自己的實現。比如有性能問題，就我知道現在國內沒有一個比較權威的對各種爬蟲做比較。

2、Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

Nutch的創始人是Doug Cutting，他同時也是Lucene、Hadoop和Avro開源項目的創始人。

說它有問題我覺得只有這么幾種可能：

1、場景不適合。

2、沒理解，沒用明白。

所以我覺得沒必要非得造個輪子。

個性化推薦

用戶端就是數據呈現了，我的理解是內容方主要的工作是：采集、整理、推薦、打TAG、分值（多個）、推薦、贊、踩、回復數、類型（圖文、視頻、文本、微信、微博等）；

用戶這邊的東西就確實高級很多：單體關系畫像，不同社交圈關系畫像，主要人群劃分TAG得分，年齡、性別、職業、特別事件、喜歡內容TAG得分、收藏內容TAG得分、分享內容TAG得分、不感興趣內容TAG得分（負值或其他分數）
推薦引擎主要的工作：按照用戶的tag得分匹配內容，結合地理位置（當前的和常用的）、當前時間段（早、中、下、晚）、當前日期（節日、周末）、熱點實時注冊的時候選擇標簽這個是SNS的做法了，頭條現在基本上都是從用戶關系拿了關聯用戶數據再來推。

眾推只要完成了初步的推薦功能，其他的基本上都是靠運營的人來積累數據。沒有足夠的數據肯定精準度要差點。比如一點資訊，現在內容差不多已經全搬過來了，但是推薦還是很爛，主要靠套用頭條的編輯推薦那塊，人工加了點分值。要不然感覺推薦會更加不準。

文章列表

不含病毒。www.avast.com

大師兄

IT工程師數位筆記本

大師兄發表在痞客邦留言(0) 人氣()

E-mail轉寄

IT工程師數位筆記本

If you give someone a program , you will frustrate them for a day; if you teach them how to program, you will frustrate them for a lifetime.IT 這段話的意思是，如果你交給某人一隻程式，你將折磨他一整天;如果你教會某人如何寫程式，你將折磨他一輩子。

BloggerAds

眾推項目的最近討論 - skyme

openKM

zongtui項目

自動化部署

云爬取

項目新架構

下一步的處理

個性化推薦

歷史上的今天

留言列表

參觀人氣

文章搜尋

最新文章

文章精選

誰來我家

熱門文章

文章分類

最新留言

QR Code

POWERED BY