文章出處

openKM

想問下有沒有這樣的開源文件管理系統,所有人都可以上傳文件,只有有權限的管理員才可以下載他人的文件?

不知道openkm能不能做到。

OpenKM是一個開放源代碼的電子文檔管理系統,它的特點是可用于大型公司或是中小企業, 適應性比較強。 并且在知識管理方面的加工,提供了更加靈活和成本較低的替代應用。

界面如下:

image

zongtui項目

項目地址:
(分布式爬蟲)http://git.oschina.net/zongtui/zongtui-webcrawler
(去重過濾器)https://git.oschina.net/zongtui/zongtui-filter
(文本分類器)https://git.oschina.net/zongtui/zongtui-classifier
(文檔目錄)https://git.oschina.net/zongtui/zongtui-doc

O$}1EMGOHJHEW`WHJG0)ALA

然后再推薦一篇文章:(深度學習 vs 機器學習 vs 模式識別)

http://www.itd4j.com/cloudcomputing/15538.html

自動化部署

請問 有Java的自動化部署工具推薦不?

有時候修改幾個文件就要重新打包發布重啟,太麻煩了,請問有什么更好的辦法么?

Jenkins是一個開源軟件項目,旨在提供一個開放易用的軟件平臺,使持續集成變成可能經濟界。

云爬取

就是有一個客戶端要爬取一千個商品,他可以提交給服務器,然后有服務器在分配給其它客戶端來爬取。這樣搞性能比較高,還能逃過IP限制。

那就是用戶要爬什么資料。你就讓用戶自己去爬取。服務端只負責,接收任務,分配任務,返回任務。

等于是免費的ip池而已。。

項目新架構

經過討論,目前的項目新架構已經修改如下:

7NXN9[J0T`ZGMNULRLI0@9C

這樣,問題的集中點就在如何接入爬蟲上了,因為現在各種爬蟲已經太多,沒必要在搞一個什么新鮮的東西!

core部分的思路參考:

2P3(8IO@K_~[GG[6FTB9J%G

下一步的處理

1.通過設定規則抓取頁面;

2.設定頁面存儲方案;

3.通過頁面材料分析出內容屬性;

4.通過內容屬性生成結果;

5.通過結果進行學習;

6.通過結果生成內容;

說一下為什么接入其它的,我舉兩個例子

1、webmagic

P{6{44@9$UV8D_I33%`X3ND[4]

就我知道,這哥們寫了2年,基本上各種問題都遇到過。沒必要再走一遍它的路,如果有問題可以通過它預留的接口幫它完善,或者直接用自己的實現。比如有性能問題,就我知道現在國內沒有一個比較權威的對各種爬蟲做比較。

2、Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創始人。

說它有問題我覺得只有這么幾種可能:

1、場景不適合。

2、沒理解,沒用明白。

所以我覺得沒必要非得造個輪子。

個性化推薦

用戶端就是數據呈現了,我的理解是內容方主要的工作是:采集、整理、推薦、打TAG、分值(多個)、推薦、贊、踩、回復數、類型(圖文、視頻、文本、微信、微博等);

用戶這邊的東西就確實高級很多:單體關系畫像,不同社交圈關系畫像,主要人群劃分TAG得分,年齡、性別、職業、特別事件、喜歡內容TAG得分、收藏內容TAG得分、分享內容TAG得分、不感興趣內容TAG得分(負值或其他分數)
推薦引擎主要的工作:按照用戶的tag得分匹配內容,結合地理位置(當前的和常用的)、當前時間段(早、中、下、晚)、當前日期(節日、周末)、熱點實時注冊的時候選擇標簽這個是SNS的做法了,頭條現在基本上都是從用戶關系拿了關聯用戶數據再來推。

眾推只要完成了初步的推薦功能,其他的基本上都是靠運營的人來積累數據。沒有足夠的數據肯定精準度要差點。比如一點資訊,現在內容差不多已經全搬過來了,但是推薦還是很爛,主要靠套用頭條的編輯推薦那塊,人工加了點分值。要不然感覺推薦會更加不準。


文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()