資料分析

通常分析前我會先想一個初步的架構，否則要看的變數太多了會很容易迷失，這一次我們的架構如下：

填答者輪廓
職業對滿意度的差異分析
教育對滿意度的差異分析
象限分群，了解不同使用族群的問題點
網站功能優化策略

下載下來的資料在Excel中打開大概長這樣：

但是中文對於程式操作上很不方便，因為語法大部分都是英文的，所以我會自己再另外設計一下變數名稱，如果不設計的話變數會顯得很雜亂、名稱太長，這些都不是好的變數。雜亂是什麼意思呢？比方說這份問卷的後面問題都在問滿意度相關的，那其實可以在這些變數前面透過一個類別名稱去命名它，比如nps_{問的問題}的格式去重新命名 (凈推薦值，雖然這邊用里克特量表，自己看得懂就好)

剛開始我會優先觀察「人口特徵」的資料，了解填答者的輪廓。通常依照問卷投放的渠道會有不同的填答者。又剛好這次使用的資料投放管道主要為網站使用者填寫，也就是說它正面反應了網站使用者的輪廓。

主要報稅人以30~59為主，這群人也是稅務網站主要服務的對象。而大多數人都是使用PC來處理報稅流程，這點與我們的認知相同。並且推測都是下班後處理，在晚上來操作網站。

女性比較多一些，另外大部分人其實不是新竹的居民。

在大學的統計學第一節課程中會告訴我們資料有四種尺度，而其中問卷調查常常出現的滿意度屬於ordernal data（順序資料，資料間沒有運算關係，但有順序關係，比如5 > 4 是「程度上的差別」，但是不會說「5比4高1滿意度」），我會透過小提琴圖來觀察滿意度的分佈，好處是你可以看到不同類別（這邊用職業，你也可以用年齡區間、教育程度等等個體間的差異）在5個分數上的分佈情況，藉此一眼就掌握個體間對於滿意度的差異，可以回答兩個問題：