讓數據站住腳-淺談用戶研究中的信度與效度

來源: Tencent CDC Blog  發布時間: 2010-10-18 21:03  閱讀: 445 次  推薦: 0   原文鏈接   [收藏]  
摘要:在用戶研究工作中,如何讓自己的數據和結論更有說服力,是很重要的問題。最近將自己積累的用研信度和效度的筆記整理一下,羅列在文中,希望對大家有所幫助。

  在用戶研究工作中,如何讓自己的數據和結論更有說服力,是很重要的問題。最近將自己積累的用研信度和效度的筆記整理一下,羅列在文中,希望對大家有所幫助。

  一、調查的質量取決于調查的信度和效度

  信度主要指測量結果的一致性、穩定性。也就是說結論和數據是否反映了用戶最真實穩定的想法。用戶在回答問題的時候,往往會受到環境、時間、當時當地的情緒影響,而作出并不真實的想法,即會有隨機誤差。信度就是衡量這種隨機誤差對用戶想法的影響大小。

  效度是指多大程度上測量了你想要測量的東西

  對某個產品用研,我們現在用得最多是用戶訪談、問卷調查和可用性測試。而在這幾個過程中都會涉及信度和效度的問題。

  二、用戶訪談中的效度和信度

  1.訪談不能僅僅局限于用戶

  任何一個產品項目都會受到市場環境、公司戰略、技術力量、平臺規范和流行趨勢等各個方面的影響。對某一產品的需求,可能來自用戶、產品、技術、交互以及視覺。不同崗位人員看待產品的角度不一樣,側重點也不一樣,找多個角色有助于把需求找全,不遺漏,所以必須提前了解他們的需求。這樣才能使我們的研究更有針對性、全面性、有用性。有用程度、全面程度是效度的重要組成部分
  2.巧妙的選擇訪談用戶

  通常,前期深度訪談的用戶數量不會太多,所以用戶條件一定要把握適當。反饋的問題才能全面、合理、有用。

  比如是做Android平臺上的某一軟件。

  首先Android新手用戶和熟練用戶都是必須的,熟練用戶更能反映android用戶習慣性操作方式、平臺特點、以及長期使用過程中積累的意見和建議;而新手用戶可以更好的反映該平臺哪些地方存在學習困難,從而通過我們的設計幫助用戶去降低學習成本。

  其次非Android平臺用戶也是必須的,可以從側面了解他們不用Android的原因。從而幫助產品挖掘更多潛在用戶提供方向。

  人口學信息(學歷、職業、性別、年齡)要覆蓋全面。不同屬性的用戶看重地方會存在差異。需求也會不一樣。

  包含競品用戶。通過了解用戶對競品的評價,可以提煉出競品的優劣勢,從而為增強產品競爭力提供方向。

  3.一定要有專家

  專家是重要的信息攜帶者。李樂山教授說專家有三類,用戶專家、制造專家、市場銷售專家,他指出判斷某人是否是專家的標準是:(1)能夠熟練使用一種產品;(2)能夠比較同類產品;(3)有關的新知識容易整合到自己的知識結構中;(4)具有10年專業經驗;(5)積累大量經驗并且在使用經驗方面具有絕招;(6)了解有關的歷史(該產品設計史、技術發展史等);(7)關注產品發展趨勢;(8)知識鏈或者思維鏈比較長,提起任何一個有關話題,他們都能夠談出大量的有關信息;(9)能夠提出改進或創新的建議,他們的創新或改進方案,其高水平體現在采用簡單方法解決復雜問題。

  對于互聯網,專家應該指的是用戶專家、開發專家、設計專家以及產品專家;他們憑借豐富的經驗,系統全面的掌握行業同類產品、開發及設計模式、歷史及發展趨勢、專業水平極高。他們可以為我們提供很多我們始料未及的建議。這是保證用研過程,特別是對于后期問卷結構效度有很大的作用。

  三、問卷調查與分析中的信度與效度

  為了提高工作效率,問卷調查往往采用網絡調查的方法,信度效度問題出現的可能性就更大。

  最近看到一些滿意度調查是采用量表加結構方程模型(SEM)的方式。我們看看哪些地方可能會出現信度和效度的問題。

  1.理論模型支持

  由于SEM進行的是驗證性因子分析,是檢驗而不是探索新的模型,因此,整個因果關系的假設必須有強有力的理論支持和嚴密的邏輯框架。包括模型中變量關系的假定、指標的選取、甚至測度項的表達方式等。如果最終輸出的模型和理論模型結構不符,那么該模型是沒有任何說服力的。比如用ACSI模型作為滿意度的理論模型時,是否真的按照感知質量、感知價值、顧客期望這幾個層面去設計問卷?
  2.保證份量

  普通抽樣調查中原則上是越多越好,但遇到目標用戶較少的情況,只要保證一定的條件就ok的,樣本量受到置信區間、抽樣誤差范圍的影響,可以用公式算出最小樣本量。

  但對于結構方程模型大樣本是必須的,SEM中涉及的變量眾多,變量間的關系很復雜交錯,小樣本量會導致模型不穩定,收斂失敗進而影響模型中參數。朱遠程等[1]在文獻中指出,當樣本低于100時,幾乎所有的結構方程模型分析都是不穩定的,大于200以上的樣本,才稱得上一個中型樣本。若要得到穩定的結構方程模型結構,低于200的樣本數量是不鼓勵的。有些學者將最低樣本量與模型變量結合在一起,建議樣本數至少應為變量的十倍,這一規則經常被引用。模型中變量越多,對大樣本的要求就越高。
  3.變量需遵循原則

  a. SEM模型中各變量的函數關系要是線性的,否則是不能用回歸計算路徑系數的。

  b.在使用最大似然估計法時,變量一定要是多元正態分布的,這就要求指標要呈正態分布,否則就要對指標進行正態處理才行。

  c.變量間的多重共線性程度要低,否則路徑系數會有很大誤差。

  d. SEM建立的過程中會不斷的修正才能得到比較完美的模型,比如因子分析時,若發現某一測度項對應的因子載荷過小,就會人為的將該測度項刪除,但是若模型建立之后,一些變量對應了4~5個測度項,一些變量只剩下1~2個測度項,那么我們就需要思考只有兩個測度項的變量是否被完全解釋,這僅有的兩個測度項就全面真實的反映該變量么?如果是這樣,就算KMO、Bartlett、因子載荷都通過了,效度也是難以保證的。

  所以問卷前期需要反復的預調研,不斷的對問題進行修正,而不是隨意的人為刪除。我學生時代對某電子商務網站滿意度進行調查時,就犯了類似的錯誤,模型中的“互動性”片段,互動性由四個變量衡量,其中“雙向溝通性”一開始設計的時候由5個測度項支持,但是因子分析檢驗通不過,就直接將因子載荷比較小的客服、論壇、SNS三者去掉了,最后雖然在數據上通過了信度效度檢驗,但是只有IM、留言板這兩個測度項支持是絕對不能解釋“雙向溝通性”的。
  4.數據質量是根源

  要使模型結構穩定有效,首先要保證數據質量,反復檢驗問卷的信度。

  a.不同時間的一致性。

  在設計問卷時,可以將同樣的問題對同一個人重復測試,如果這兩道題得到的答案是不一致的,相關系數(Pearson r)小于0.7,那么這份問卷的穩定信度就值得考量。

  假如問卷樣本足夠大,可以一分為二(每一個樣本也要保證足夠樣本量),分別建立兩個模型;通過對比兩個模型中參數的差異,便可以檢驗該模型的穩定性和適用性。如果兩者差異太大,就說明模型本身是有問題的。
  b.不同形式的一致性

  用內容等效但表達方式不同的兩份問卷調查,檢測兩者的等效信度,比如Gamma系數。

  c.內在一致性

  問卷中相關的問題為同樣的目標服務,他們在邏輯一致,也就是同質的。首先要測量每個測度項與總體的相關性(item-total correlation),然后再測量同一變量下相關問題間的同質性,而對于不同的提問方式選擇對應的方法:比如,對于李克特量表方法,就用Chronbach系數檢驗;在基礎研究中,信度至少應達到 0.80 才可接受,在探索性研究中,0.70 可接受,0.70-0.98 為高信度,小于0.35 為低信度。對于是非題則采用kuder-Richardson系數檢驗。在進行內在一致性檢驗時,要看題目選項是否反序,如果兩道題都是問“對該產品是否滿意”,一道7代表滿意,1代表不滿意;另一道1代表滿意,7代表不滿意,這樣就會影響信度。遇到這種情況要提前人為調整過來。

  5.看得更遠一點

  問卷結論不僅要解決當前的問題和需求,還有具有一定的預測作用,市場是變化的,當前的目標用戶不一定就是未來的(或者下一個版本的)目標用戶,比如目標用戶的收入可能有增加的趨勢,某一平臺的使用率在快速提高,當前的滿意度模型可能在一個月之后就不適用了(比如新功能點的出現)。
  假設我們要對QQ影音進行滿意度調查,現在建立了一個滿意度模型,但若下個月QQ影音中多了一個重要的功能,對整個滿意度的提升產生了很大作用,那么,模型中各項的路徑系數會不會產生變化?該模型在下個月可能就不適用了,造成的后果就是當前的滿意度值與下個月的滿意度值沒有可比性了,很多工作也就白費了。所以,諸如滿意度模型這樣的研究,是需要反復調查,長期對該滿意度模型進行監控和修正,以求得到最穩定的模型,就可以讓模型會具有很預測和比對作用啦。

  6.關注細節

  a.問卷設計中題項表述不能出現歧義、避免太專業詞匯以及誘導詞匯

  b.選項間要有明確的區分(互斥)

  c.避免遺漏,“其他”選項是必須的,而且最好配有輸入框,記憶中,每次問卷調查中都能從“其他”選項中獲取大量信息。

  d.一般題項不能太多,設置問題選項的時候,盡可能的讓選項隨機顯示,特別是在選項較多的情況下。

  e.數據處理過程中刪除重復項矛盾項之外,最好能統計到用戶填寫問卷的時間差。如果整個填寫的時間極短,完全可以判定用戶沒有認真填寫。

  f.極端的、離群的選項可以考慮將其刪除。

  四、可用性測試中的信度與效度

  首先保證,主持人的態度親切、測試前隨意聊聊彼此熟悉、測試提綱清晰全面。另外,以下幾點也對保證測試的信度和效度很重要。

  1.不要忽略異想天開

  腦暴中要求彼此不能批評,在進行訪談或測試中,也不能對用戶某些操作做出評論,否則用戶很有可能隱藏內心真實的感受。關注并記錄用戶出錯,但是用戶出錯時態度要中立。

通常,用戶在體驗的真實的原型后,會產生很多看似異想天開的訴求,有些雖然在當前不能實現,但是會為未來發展提供很多思路和方向。所以,我們要積極鼓勵用戶進行思維發散。

  2.前后驗證、競品比對

  在測試完成后,可以加上一個總體調查問卷,一者讓用戶對自己體驗的各個功能點有一個回顧和比較,同樣也可以驗證用戶體驗過程的態度和最終的態度是否具有一致性。如果存在不一致,應該進一步追問理由,確定用戶的真實想法。

測試時,讓用戶體驗競品,并作出比較,也是發現有效信息的途徑。

  3.敏銳觀察

  測試中,除了按照已定的提綱進行問答之外,過程中還要敏銳的觀察用戶一些細微的表情、停留、思考。不但要了解用戶對個功能點如何評價的,還要知道用戶做某一任務過程中,是怎么思考、計劃、實施的,用戶的第一反應、習慣性的操作、思維路線的作用遠遠大于單純的評價。用戶任務完成之后,要追問用戶如此操作的原因。

  4.記錄原話并習慣性確認

  測試結論要有用戶的原話支持,不能輕易的改變用戶的表述。和用戶交流過程中,要習慣性的問:“請問你的意思是……?”“我這樣理解你的意思,你看對么……?”以保證測試結論的效度。

  5.必要時進行入戶調查

  首先,入戶調查會大大減少外界環境的影響,用戶在自己的空間中,會更真實的反映常見的問題。其次,入戶調查一般是在用戶畫像提取出來之后,按照用戶畫像描述的屬性,有意識有針對性去挑選具有某些典型屬性的對象進行深入、全面、系統調查(典型調查),比如某一產品的目標用戶,他們反映的問題,代表性強,往往有以一當十的功效,避免了非目標用戶信息造成的干擾。

  6.用戶條件與數量

  參與測試用戶根據目標用戶特征選擇。

  一般衡量測試是否需要繼續進行的方法是:看是否發現新的問題,如果有新的問題,就應該繼續,反之,可以結束。

  Neilson研究結果表明,5名用戶的測試可以發現85%的可用性問題。而在我們在以往的可用性測試經驗中,用戶數一般定為6個,基本上能發現全部問題。當然任何數字都只是一個參考,用戶數量最好根據具體的測試情況(衡量時間、資源、投入產出比)而定。總之,關鍵在于是否有新的問題出現

0
0
 
 
 

文章列表

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()