文章出處

偶感

偶爾開幾個腦洞，別太認真~

你怎樣理解序列化和反序列化？

答：我認為這就是廣義的I/O，也就是以網絡傳輸作為形式的文件讀寫操作。

大數據是什么？

答：大數據就是一場炒作，就是人懶得去分析表之間的關系，然后用machine learning，deep learning的各種算法去計算。實際上就是統計學+web程序設計+傳感器采集數據，沒什么高端的東西。

好吵

504有個人敲鍵盤，一直敲，好像在玩qq炫舞，煩死了！！！！！傻逼！！！

node.js

以前看node.js，純粹是因為浮躁跟風，想了解最新的最潮的東西。那時候都不懂網絡編程，不理解同步和異步，所以，看了也沒啥用。要重新看了。
好吧，其實沒看幾頁又扔了，因為用不到！小公司不要我！！

努力和聰明的區別

就像是在最一道acm題目，努力是什么，是你能夠寫出模擬程序，能夠去遍歷；而聰明，則是能理清問題中各種變量之間的關系，能更快解出答案，不用遍歷而勝似遍歷。如果體力太少，連遍歷都做不到，那真的是沒救了。所以說，以大多數人的努力程度之低，還輪不到拼天賦。

金融數據挖掘？

2015年8月9日 23:11:41
想到以前實習做金融數據挖掘，說要找模型看paper。我表示，在不了解有監督的分類以及回歸的情況下，去看數據挖掘，去研究理財產品和用戶數據，真是扯淡。不要上來就說模型，給出具體的幾個算法名不好嗎？knn，樸素貝葉斯，決策樹，svm，然后是無監督的kmeans、EM，各種神經網絡......總之以前太不了解行情了，如果那時候先自己看完了這些，再去實習，就真的能做出東西來了...問題是現在還有神經網絡沒有看！

test data

http://blog.snsgou.com/blog/161.html
http://mp.weixin.qq.com/wiki/12/2108cd7aafff7f388f41f37efa710204.html

卷積和map-reduce

2015年 10月 04日星期日 00:17:21 CST
卷積操作是什么？在圖像處理中，有一個小的矩陣（通常是奇數階方陣），和圖像矩陣中某一個區域，對應元素相乘，然后把所有乘積相加。
這其實就是一種很簡單的map-reduce過程。看過SICP后就理解了（其實是看SICP前顯然能夠理解但是沒有刻意去注意去理解:),map就是一個分布式處理操作，對序列中每個元素做同樣的一個op操作；而reduce，或者在SICP中叫accumulate，是處理map后的所有結果的一個操作。
在卷積操作中，map操作是元素相乘，reduce操作是乘積累加。

當然，矩陣相乘也可以從map-reduce的角度去理解。其實誰不懂map-reduce呢？只不過現在分布式發展壯大了，map-reduce能真正大規模使用了，所以受到關注。

什么樣的公式是好的公式？

以前初中高中物理有不少公式，以及各種變形。當時圖省事，我把公式和公式變形都記的很熟，因為各種題目不會傻到直接套用公式，至少是公式變形一下，比如用原公式是用a、b變量計算出c，題目會給出a、c的值，讓你求b的值。當時我對于公式的態度，原公式和變形公式幾乎同樣熟悉。這對于解題當然正確，但是思維上有問題。

什么樣的公式是好公式？初中物理老師說過這些公式只要記住一個，會推導出其他公式，就可以了。那么這個用來推導其他公式的公式，就是好公式了。可是這還是沒什么感覺。書本給出的公式，應該就是好公式了；而書本上給出的推論或者小字部分給出的公式，就不是好公式了。？

然而生活沒有那么多課本給我們用，課本終有用光的一天，無論是職場還是科研，沒有具體課本的時候我們怎樣自己歸納總結公式？

顯然，用已知的東西定義未知的東西，這是必須的，但仍然是不夠的；用具體的，去定義抽象的，這才是需要的。這用來定義新概念的具體概念，也通常不會是具體物質形式存在的東西，而是抽象描述的、為你我所熟知的概念，是一種具體的“抽象”；而新定義的概念，是更加抽象一層的概念。同時，還應當保證，這用于定義新概念的概念，要精簡而避免冗余；要盡量打包而不是最原始的概念。

好吧，這種想法其實就是歐幾里得幾何的公理化方法的一種延伸罷了，只不過現在對于所定義的概念，有了層級的區分：它們不是全都處于同級的，總有更加抽象的。

一個具體的例子：頻率：單位時間內完成周期性變化的次數。這是一個好的定義。因為有兩個抽象層級存在。

排序的本質

原有的有序元數據，因為某種原因被映射得到無序的數據。所謂排序，就是求從無序數據到有序數據的一個映射。
當然一般情況沒這么簡單，通常是：x -> f(x) -> g(f(x)) -> f(x) -> x
即：原始數據x被映射為f(x),這時候已經是亂序了；但是通常還需要套一層g映射，g一般是能具體寫出函數表達式的映射（例如放大10倍，或者增加10。。貌似這就是尺度變換（縮放）和平移變換。。orz）；然后，我們現實中往往是只有觀測數據g(f(x))，要求取x的，這就需要先做g^(-1)映射，再做f^(-1)映射。
g^(-1)映射很簡單（這里只考慮沒有重復元素的排序問題），f^(-1)則很難，是排序的核心問題。因為往往得不到f^(-1)的具體表達式。

順便說下，g^(-1)映射可以看成是離散化的過程。

直方圖：一個map reduce的很容易理解的例子

接觸過數字圖像處理的人肯定知道直方圖。
就算沒有接觸過數字圖像處理，中學里也肯定學過頻率分布直方圖。
這個直方圖的構建過程，就是一個map reduce的過程。

首先，你手頭得到數據。這些數據是連續型數據（浮點數）。
然后你把他們離散化：每個數據劃歸到一個子區間內。比如區間長度為10，那么區間端點之間的數據都算這個區間的。這個就是一個map的過程。
然后你在map好的基礎上，統計每個區間內的原始數據數量。這就是reduce過程。
好了，現在你得到每個區間的統計數據了，可以畫直方圖了。

真實世界的map reduce，無非是類似的任務分配給不同的機器去做（map），做好之后再匯總（reduce）。
額。。這里的reduce的理解有點問題，好像不對。。。挖坑待填。

遺傳算法和社會流動性

遺傳算法講究一個基因突變率。突變率不能太高也不能沒有。
社會人口結構也是類似的，要保證一定的流動性，不能太高也不能太低。。。。自適應和演化自適應。。。
但是社會的人口流動性不是一個人在控制，而且新的king上任后可能還會變化，遠比遺傳算法要復雜。。

從畢達哥拉斯想到的

古希臘，畢達哥拉斯學派，他們認為宇宙的everything都可以用數字表示（大概意思）。
其實顯然這太偏執了。我的身體，我的手機，我的水杯，你說，哪個是純數字？
但是里面的思想是有趣的，是有啟發意義的。
這個世界上的人，可以認為是由一小撮精英和一大群普通人組成的。這群精英，可以認為是最重要部分。
其實可以考慮用n維向量來描述事物。沒錯，任何事物都可以用meta-description+特征向量的形式進行描述，而向量的每個元素都是數字。
這個世界，是向量的世界。而現在這個時代，人們都在找各種提取特征向量(提取feature）的方法。無監督方法代表未來。

真實世界可能并不存在太多的“平均值”

比如我在復習《計算理論基礎》的13道復習題，我不可能復習完6.5道題目。就算題目是12道，難度也不一定相同；就算難度相同，我的狀態也不一樣，可能后面的幾道題根本沒有真的弄懂。。
There's no static mean value. I must surpass it, or I'll lost.
這或許就是“學如逆水行舟，不進則退”的一種表現形式吧。

文章列表