真正有價值的社交網絡——微觀下的Twitter
翻譯:mxwu
社交網絡,一個古老而又普通的人際交流方法,在Web時代變得流行起來。在給人們提供了跟蹤朋友、熟人和家人生活的方法之后,使用SNS的人數在這個世紀初成指數級發展。
Facebook,LinkedIn和MySpace,作為幾個例子,擁有了上百萬的用戶,用戶們使用SNS,在需要的時候關注其他人,尋找專家甚至參與商業活動。此外,商業公司嘗試使用SNS開拓市場,因為SNS提供了一個準備好的平臺,可以針對那些有相同興趣的人傳播信息。
學術界在SNS的構造和演化上積累大量的知識——使用了簡單已有的數據和在網絡中節點與連接的統計學規律。
社交網絡的標準定義包含了人和他們的社會關系,然而事實上,人們卻只和和那些“列”在他們網絡中的極少數人交流。事實背后一個重要的原因是注意力在Web時代是稀缺資源。用戶面對著許多日常工作和大量社會連接,沒有太多精力關注到所有人。例如,最近針對Facebook的一個研究表明,用戶只和他們所有朋友中的少數人交流。
這些早期的觀察暗示了一個對人們重要的自然社交網絡的系統性的研究。所謂重要的網絡,我們指的是那些人們和朋友、熟人有交流的網絡,而不僅僅是一個定義好的朋友列表。
為了找到朋友列表和網絡中成員的關系,我們從Twitter網絡上搜集、分析了大量數據。 Twitter.com是一個在全世界擁有上百萬用戶的在線社交網絡,用戶們在twitter上可以和朋友、家人、同事通過電腦、手機保持聯系。Twitter可以讓用戶發布所有其他用戶可以讀的少于140字的短消息。用戶Follow那些他們感興趣的人,當這些人發布新的消息時,用戶就能看見。一個用戶如果被其他人Follow了,他沒有必要也Follow回去,這個特性導致Twitter的社交網絡具有有向性。
對于我們研究的Twitter用戶,我們搜集了他們的follower和followee人數,tweet的內容和發布時間。我們的數據包括了309,740個用戶,這些用戶平均發布了255個tweet,有85個follower并且follow了80個其他用戶。在這309,740個用戶中,只有211,024個用戶發過2個以上的tweet,我們把這些用戶稱之為活躍用戶。我們也定義了活躍用戶的活躍時間——在他第一次tweet和最后一次tweet的時間。平均的看,活躍用戶的活躍時間是206天。(譯者注:twitter始于2006年3月21日,本文發表于2008年12月)
Twitter用戶可以發布直接和間接的tweet。直接tweet就是reply,只有@的那一個人可以看見,間接tweet所有follower都可以看見。即使直接tweet是用來和特定一個人的交流,這些tweet依然是公開的,任何人都可以看到它們。很多時候,兩個人經常使用直接tweet對話。大約25.4%的tweet是直接tweet,這說明這個功能廣泛的被用戶使用。
我們很關心有多少人在Twitter上使用直接tweet和每個朋友交流。我們用戶的朋友做了定義:如果用戶對一個人使用了2次直接tweet,這個人就是這個用戶的朋友。根據這個定義,我們可以相對于用戶的朋友列表,找到那些真正的朋友。
圖1 Follower和tweet總數形成的函數,在Follower達到一定數量后,tweet總數飽和
圖2 朋友數和tweet總數形成的函數。最終tweet總數達到了系統上限。
在我們之前所發現的,社交網絡中注意力對于生產力所扮演的角色,我們推測那些得到更多關注的用戶會比其他用戶更多的發布tweet。因此,我們期望那些有更多follower和朋友的用戶也能比其他用戶更加活躍。圖1和2表示,事實上tweet的總數會隨著follower和朋友數目的增加而增加。但是,圖1也可以看出,tweet總數在follower到達一定程度后會飽和。另一方面,圖2也可以看出tweet總數卻不會因為朋友數量的增加而飽和。tweet的總數一直增加到極值3201(注:由于 twitter的系統限制,每個用戶只存儲3201個tweet)。這個結論建議,要預測一個Twitter用戶有多活躍,朋友數量對其的影響遠大于follower。
這個結論也說明了,要評估一個社交網絡的大小,我們需要參考的是和用戶真正互相交流的人,而不是那些被聲明的follower和朋友。
圖3 followee比朋友和用戶數的直方圖。相對于定義的followee,絕大部分用戶只有少數的朋友
在發現了朋友數目才是吸引Twitter用戶真正動力以后,我們把它和用戶定義的朋友作了一個比較。我們定義δ為朋友數量和用戶定義的朋友數量之比。因為98.8%的用戶朋友比follower 少,幾乎所有的δ都小于1。圖3展示了δ值的一個直方圖。我們可以看到大部分用戶的δ值小于0.1,而接近1的用戶數量極少。δ的平均值是0.13,中值是0.04。這說明,相對與用戶follow的人數,朋友只占了很低的比率。因此,即使用戶定義了很多follower,真正保持聯系的朋友其實是極少數。所以,表面上看社交網絡中用戶定義的follower和followee很密集,實際上影響力更大的朋友網絡是稀疏的。
圖4 朋友數和Followee形成的函數。朋友數在Followee達到一定程度后飽和。
圖5 朋友/followee和followee形成的函數。在初期的時候會隨followee增加而增加,然后迅速減少到接近0。
另外一個有趣的方面是當followee增加時,朋友和δ值如何變化。圖4和圖5顯示,雖然朋友的數量在初期會隨著followee增加而增加,但是隨后朋友的數量會飽和并且保持一個常量。這個趨勢可以被解釋為,followe一個人比維持一個朋友的聯系要容易得多。因此,雖然 followee的數量可以無止境的不停上升,但是真正有交流的朋友卻不能。
總的來說,雖然使用了一個“朋友”的弱定義(任何用戶對其使用過2次直接tweet的人),我們發現,相對于他們聲明的follower和followee,Twitter用戶只有很少的朋友。這個說明存在著兩個不同的網絡:一個是使用follower/followee定義的密集網絡,一個是相對稀疏和簡單的,由真正朋友組成的網絡。而后一個由真正朋友組成的網絡會比前一個網絡更為重要的影響著用戶的活躍度。另一方面,有許多follower和followee的用戶會更加活躍。
許多人,包括學者、廣告商和政治家,以為在線社交網絡是一個機會,可以學習思想傳播、社會結構和病毒式營銷。這些觀點由于我們的發現可能變得站不住腳,因為那樣的兩個人之間的連接并不意味著交流。以Twitter為例,在Twitter里定義的連接,大部分對于交流來說是沒有意義的。因此,找到那個隱藏的社交網絡,那個真正有意義的社交網絡,才能達到傳播思想,信仰或者是趨勢的目的。
譯者的話
這篇文章為我們提供了一些關于Twitter的新觀點——那個真正有意義的,真正對用戶產生影響的隱藏網絡。然而互聯網出于高速發展的時期,這篇一年多前成文的論文有些地方已經不符合現實了,特別是retweet被加入為官方特性以后,Twitter傳播的特性被放大了。譯者不知道,如果朋友定義為那些tweet被用戶retweet和收藏過的人之后,這些結論是否還成立。但毋庸置疑,論文里那個隱藏網絡的思想,值得我們深思。
譯者一直在嘗試使用數據來細分Twitter中的用戶類型,因為只有了解的Twitter的用戶類型,從而才能知道用戶的需求,也才能更好的做出針對性的產品和針對性的營銷,論文中的朋友也是一種用戶分類的方法。譯者有一些其他的簡單的想法。比如根據follower和followee之比劃分:
- followee/follower 大于3的,是渴望交流型,這些用戶掙扎于follow了很多人,卻沒得到follow back。
- follower/followee 大于3的,是明星型,這些用戶通常有一技之長,為他們積累的相當的人氣,同時,他們大部分也都是活躍用戶。
- follower=followee 且小于200的是,生活型,這些用戶通常只是followe真正認識的人。
- follower=followee且大于400的是,交友廣泛型,這些用戶有很多朋友,也擅長和人交往。
- follower=followee且大于1000的,是信息爆炸型。這些用戶會發現屏幕不停刷出新tweet,如果他真的這樣使用twitter的話,那他會是一個很好的retweet專家。
其他的一些分類,還可以考慮按用戶tweet的內容,時間來劃分。大家有什么想法么?歡迎討論:)
原文:http://www.hpl.hp.com/research/scl/papers/twitter/twitter.pdf