有關Web 3.0
很難得,看到園子里有朋友開始關注Web 3.0的概念了。也許很多朋友會認為概念陳述都是虛無飄渺的東西,不如討論技術來得實在。是的,概念脫離了實際則無異于海市蜃樓,雖然美麗卻遙不可及。不過,話也回來,概念的提出或者歸納也許是推廣普及的需要,也許是為了創造更大的舞臺,Ajax就是一個非常成功的先例。
Web 3.0是一個新的概念,很可惜,我們很難找到權威的定義。不過,從有限的資料中,我們約莫可以猜想到Web 3.0的一些特點:
1、Web 3.0時代的網絡訪問速度會非常快;
2、Web 3.0時代的網站會更加開放,對外提供自己的API將會是網站的標準配置;
3、Web 3.0時代的信息關聯通過語義來實現,信息的可搜索性將會達到一個新的高度。
第一點就不用說,想想自己10年前使用Modem上網的體驗,再對比一下現在的寬帶,變化可謂是翻天覆地了;對第二點,相信大家也是相當熟悉了,開放API已經被越來越多的網站所采納,當所有網站都提供開放API的時候,也許就是Web 3.0時代到來的標志吧;最后的第三點,是我個人認為最具革命性的一點,同時也應該是Web 3.0最為關鍵的特征。在講述這點之前,我先向大家介紹一個網站——Freebase。
通過Google,我們能夠找到有關Freebase的中文資料還非常少,麥田螞蟻給出的文章以及牛人阮一峰寫的兩篇文章比較有代表性。從這些文章中,我們可以了解到“Freebase是個類似Wikipedia的創作共享類網站,所有內容都由用戶添加,采用創意共用許可證,可以自由引用。兩者之間最大的不同在于資料存儲方式,Wikipedia是以文章的方式輸出,而Freebase中的條目都采用結構化數據的形式。因為資料存儲結構化的關系,條目之間的關系或者串聯就相當容易,這樣就方便網站或者軟件開發人員將數據應用到網站或軟件中。”Freebase提供了API以及自定義的MQL語言,方便人們使用Freebase的信息,其開放程度是絕無僅有的,這恰好符合了Web 3.0的第二個特點。除此之外,Freebase對信息的組織在一定程度上體現了Web 3.0的第三個特點——通過語義關聯信息。
我們都知道,Google的使命是組織全世界的信息,使人們能夠隨時隨地使用信息。那么Freebase的使命同樣也是如此。不過,Google關注的是搜索,而Freebase關注的則是信息的組織。事實上,互聯網上的信息從來都是相互關聯的,因為超鏈接的存在實現了這一點。而超鏈接這個平凡得讓人遺忘的事物也是Google搜索算法的重要依據。盡管如此,這種關聯卻是和語義無關的,也就是說超鏈接只是為信息關聯提供了最簡單的方式,它對于人們發現并且獲取信息的幫助少之又少,甚至適得其反。為了方便大家理解,我們可以思考以下問題:
1、某個詞語或者詞組,譬如“python”,在不同的上下文當中,它所代表的意思將會存在很大的差異。而我們通常使用的搜索引擎僅僅是關鍵字的匹配,它并不能理解某個詞語在上下文所代表的含義;
2、某個詞語或者詞組,尤其是數字,本身并沒有什么含義,但是當它們出現在某些上下文的時候,它就被賦予了特定的含義。譬如8848這個數字,本身沒有什么特定的含義,但是把它放到地理這個范疇,它就是世界第一高峰——珠穆朗瑪峰的高度;
3、現階段,信息的關聯都是由人來完成的,而機器所進行的信息關聯更多在于文字層面的匹配。譬如,我們可以通過搜索引擎找到一系列與某個關鍵字相匹配的網頁,但這些網頁僅僅是因為它們包含了該關鍵字才被組合到了一起。通常某個詞語(尤其是學術名詞)都會有它的內涵和外延,單純的文字匹配所獲得的信息組合無法全面而準確地對該詞語進行表述,那么,通過搜索引擎實現的信息關聯的價值就大打折扣了。
上述三個問題是現階段互聯網所存在的一些缺陷,讓我們面對浩瀚的信息海洋無所適從,哪怕是通過搜索引擎在很多時候都無法找到我們所需要的信息。面對這樣的難題,“語義互聯網”的概念應運而生了,而Freebase正是語義互聯網的一個實驗產物。乍一看,Freebase和維基百科還頗為相似,最大的區別在于條目存儲的方式,Freebase為每個條目都提供了一個屬性結構,譬如對于某個人物,就包含了諸如出生日期、性別、國籍等等屬性,而用戶不僅可以為屬性提供賦值還能添加新的屬性。這樣一來,用戶提供的每一個數字或者每一個詞組所包含的意思就能被計算機識別了。在這里,這些屬性就是語義的表現形式,因為語義本身就是對于信息的描述,這是一種元數據層面的理解。
我相信,隨著語義互聯網的普及,信息本身的可搜索性將會越來越高,那么,單純基于文字的搜索引擎的作用將會大大削弱。這也難怪互聯網之父伯納斯-李表示:“Google目前的工作與語義互聯網相比是不值一提的。”事實上,語義互聯網在最近這幾年發展得越來越快,同時像諾基亞、IBM、HP、Adobe等IT巨頭都在這個方面投入了大量的精力,可見該項技術的意義非比尋常。噢,對了,文中提到的Freebase也進入了快速發展期,我們可以從Freebase的blog了解到,網站的條目已經達到了500萬個。也許,以語義互聯網作為標志的Web 3.0的腳步已經近了。