偶感
偶爾開幾個腦洞,別太認真~
你怎樣理解序列化和反序列化?
答:我認為這就是廣義的I/O,也就是以網絡傳輸作為形式的文件讀寫操作。
大數據是什么?
答:大數據就是一場炒作,就是人懶得去分析表之間的關系,然后用machine learning,deep learning的各種算法去計算。實際上就是統計學+web程序設計+傳感器采集數據
,沒什么高端的東西。
好吵
504有個人敲鍵盤,一直敲,好像在玩qq炫舞,煩死了!!!!!傻逼!!!
node.js
以前看node.js,純粹是因為浮躁跟風,想了解最新的最潮的東西。那時候都不懂網絡編程,不理解同步和異步,所以,看了也沒啥用。要重新看了。
好吧,其實沒看幾頁又扔了,因為用不到!小公司不要我!!
努力和聰明的區別
就像是在最一道acm題目,努力是什么,是你能夠寫出模擬程序,能夠去遍歷;而聰明,則是能理清問題中各種變量之間的關系,能更快解出答案,不用遍歷而勝似遍歷。如果體力太少,連遍歷都做不到,那真的是沒救了。所以說,以大多數人的努力程度之低,還輪不到拼天賦。
金融數據挖掘?
2015年8月9日 23:11:41
想到以前實習做金融數據挖掘,說要找模型看paper。我表示,在不了解有監督的分類以及回歸的情況下,去看數據挖掘,去研究理財產品和用戶數據,真是扯淡。不要上來就說模型,給出具體的幾個算法名不好嗎?knn,樸素貝葉斯,決策樹,svm,然后是無監督的kmeans、EM,各種神經網絡......總之以前太不了解行情了,如果那時候先自己看完了這些,再去實習,就真的能做出東西來了...問題是現在還有神經網絡沒有看!
test data
http://blog.snsgou.com/blog/161.html
http://mp.weixin.qq.com/wiki/12/2108cd7aafff7f388f41f37efa710204.html
卷積和map-reduce
2015年 10月 04日 星期日 00:17:21 CST
卷積操作是什么?在圖像處理中,有一個小的矩陣(通常是奇數階方陣),和圖像矩陣中某一個區域,對應元素相乘,然后把所有乘積相加。
這其實就是一種很簡單的map-reduce過程。看過SICP后就理解了(其實是看SICP前顯然能夠理解但是沒有刻意去注意去理解:),map就是一個分布式處理操作,對序列中每個元素做同樣的一個op操作;而reduce,或者在SICP中叫accumulate,是處理map后的所有結果的一個操作。
在卷積操作中,map操作是元素相乘,reduce操作是乘積累加。
當然,矩陣相乘也可以從map-reduce的角度去理解。其實誰不懂map-reduce呢?只不過現在分布式發展壯大了,map-reduce能真正大規模使用了,所以受到關注。
什么樣的公式是好的公式?
以前初中高中物理有不少公式,以及各種變形。當時圖省事,我把公式和公式變形都記的很熟,因為各種題目不會傻到直接套用公式,至少是公式變形一下,比如用原公式是用a、b變量計算出c,題目會給出a、c的值,讓你求b的值。當時我對于公式的態度,原公式和變形公式幾乎同樣熟悉。這對于解題當然正確,但是思維上有問題。
什么樣的公式是好公式?初中物理老師說過這些公式只要記住一個,會推導出其他公式,就可以了。那么這個用來推導其他公式的公式,就是好公式了。可是這還是沒什么感覺。書本給出的公式,應該就是好公式了;而書本上給出的推論或者小字部分給出的公式,就不是好公式了。?
然而生活沒有那么多課本給我們用,課本終有用光的一天,無論是職場還是科研,沒有具體課本的時候我們怎樣自己歸納總結公式?
顯然,用已知的東西定義未知的東西,這是必須的,但仍然是不夠的;用具體的,去定義抽象的,這才是需要的。這用來定義新概念的具體概念,也通常不會是具體物質形式存在的東西,而是抽象描述的、為你我所熟知的概念,是一種具體的“抽象”;而新定義的概念,是更加抽象一層的概念。同時,還應當保證,這用于定義新概念的概念,要精簡而避免冗余;要盡量打包而不是最原始的概念。
好吧,這種想法其實就是歐幾里得幾何的公理化方法的一種延伸罷了,只不過現在對于所定義的概念,有了層級的區分:它們不是全都處于同級的,總有更加抽象的。
一個具體的例子:頻率:單位時間內完成周期性變化的次數。這是一個好的定義。因為有兩個抽象層級存在。
排序的本質
原有的有序元數據,因為某種原因被映射得到無序的數據。所謂排序,就是求從無序數據到有序數據的一個映射。
當然一般情況沒這么簡單,通常是:x -> f(x) -> g(f(x)) -> f(x) -> x
即:原始數據x被映射為f(x),這時候已經是亂序了;但是通常還需要套一層g映射,g一般是能具體寫出函數表達式的映射(例如放大10倍,或者增加10。。貌似這就是尺度變換(縮放)和平移變換。。orz);然后,我們現實中往往是只有觀測數據g(f(x)),要求取x的,這就需要先做g^(-1)映射,再做f^(-1)映射。
g^(-1)映射很簡單(這里只考慮沒有重復元素的排序問題),f^(-1)則很難,是排序的核心問題。因為往往得不到f^(-1)的具體表達式。
順便說下,g^(-1)映射可以看成是離散化的過程。
直方圖:一個map reduce的很容易理解的例子
接觸過數字圖像處理的人肯定知道直方圖。
就算沒有接觸過數字圖像處理,中學里也肯定學過頻率分布直方圖。
這個直方圖的構建過程,就是一個map reduce的過程。
首先,你手頭得到數據。這些數據是連續型數據(浮點數)。
然后你把他們離散化:每個數據劃歸到一個子區間內。比如區間長度為10,那么區間端點之間的數據都算這個區間的。這個就是一個map的過程。
然后你在map好的基礎上,統計每個區間內的原始數據數量。這就是reduce過程。
好了,現在你得到每個區間的統計數據了,可以畫直方圖了。
真實世界的map reduce,無非是類似的任務分配給不同的機器去做(map),做好之后再匯總(reduce)。
額。。這里的reduce的理解有點問題,好像不對。。。挖坑待填。
遺傳算法和社會流動性
遺傳算法講究一個基因突變率。突變率不能太高也不能沒有。
社會人口結構也是類似的,要保證一定的流動性,不能太高也不能太低。。。。自適應和演化自適應。。。
但是社會的人口流動性不是一個人在控制,而且新的king上任后可能還會變化,遠比遺傳算法要復雜。。
從畢達哥拉斯想到的
古希臘,畢達哥拉斯學派,他們認為宇宙的everything都可以用數字表示(大概意思)。
其實顯然這太偏執了。我的身體,我的手機,我的水杯,你說,哪個是純數字?
但是里面的思想是有趣的,是有啟發意義的。
這個世界上的人,可以認為是由一小撮精英和一大群普通人組成的。這群精英,可以認為是最重要部分。
其實可以考慮用n維向量來描述事物。沒錯,任何事物都可以用meta-description+特征向量的形式進行描述,而向量的每個元素都是數字。
這個世界,是向量的世界。而現在這個時代,人們都在找各種提取特征向量(提取feature)的方法。無監督方法代表未來。
真實世界可能并不存在太多的“平均值”
比如我在復習《計算理論基礎》的13道復習題,我不可能復習完6.5道題目。就算題目是12道,難度也不一定相同;就算難度相同,我的狀態也不一樣,可能后面的幾道題根本沒有真的弄懂。。
There's no static mean value. I must surpass it, or I'll lost.
這或許就是“學如逆水行舟,不進則退”的一種表現形式吧。
文章列表