項目 | 數值 | 說明 |
---|---|---|
E-I Index | -0.615 | 內向性 \(>\) 外向性 |
Expected value | 0.187 | |
Permutation Test p \(\leqslant\) Ob |
0.000 | p \(<\) 0.025時,E-I index值顯著 |
在計算網絡整體的凝聚力(cohesion)時,因為E-I index為負數,因此得知此網絡較偏內向性。經由排列檢定(Permutation test)檢驗E-I index顯著與否時,由於在信心水準95%的雙尾檢定下,若p值小於0.025則表示E-I index值顯著,本題的E-I index(-0.615) 小於期望值(0.187),需檢視 p \(\leqslant\) Ob(0.000)之欄位,故可判斷此網絡整體的內向性是顯著的。
E-I Index | 說明 | |
---|---|---|
group 0 | 1.000 | 完全外向 |
group 1 | -0.676 | 內向性 \(>\) 外向性 |
group 34 | -0.684 | 內向性 \(>\) 外向性 |
如上圖所示,該網絡在此屬性下可分為三種小團體:
group 0所得E-I index(1) 為完全外向,表示組內的成員彼此完全不會聯繫,皆與另外兩組成員交流。group 1之E-I index(-0.676) 與group 34之E-I index(-0.684) 內向性高,表示組內成員與組內成員之連結大於與組外成員的連結。從視覺化的圖可看出group 1與group 34分別是支持網絡內成員編號1與34的小團體,goup 0之成員則可視為未表態、零散的網絡內個體。
group 0
five most out-ward: 10, 17, 19。僅有的三位成員皆為外向,完全不會與組內另外二人聯繫。
group 1
five most out-ward: 3, 20, 6, 7, 14。除了3 (0)與組內外聯繫平均之外,其他四者皆為負值。
five most in-ward: 4, 5, 8, 11, 12, 13, 18, 22。這些人之E-I index值皆為-1。
group 34
five most out-ward: 9, 29, 28, 31, 34。
five most in-ward: 15, 16, 21, 23, 24, 25, 26, 27, 30。這些人之E-I index值皆為-1。
項目 | 數值 | 說明 |
---|---|---|
E-I Index | -0.718 | 內向性 \(>\) 外向性 |
Expected value | 0.030 | |
Permutation Test p \(\leqslant\) Ob |
0.000 | p \(<\) 0.025時,E-I index值顯著 |
使用Club的屬性檢驗時,E-I index為負數(偏內向性),並且 p \(\leqslant\) Ob 欄位之值(0.000)小於0.025,故網絡整體的內向性同樣是顯著的。
E-I Index | 說明 | |
---|---|---|
group 1 | -0.728 | 內向性 \(>\) 外向性 |
group 34 | -0.707 | 內向性 \(>\) 外向性 |
如上圖所示,該網絡在此屬性下可分為兩種小團體,且兩組內部聯繫皆遠熱絡於外部聯繫,故E-I index皆為負數。
group 1
five most out-ward: 9, 3, 20, 14, 2。
five most in-ward: 4, 5, 6, 7, 8, 11, 12, 13, 17, 18, 22。這些人之E-I index值皆為-1。
group 34
five most out-ward: 10, 31, 29, 28, 34。
five most in-ward: 15, 16, 19, 21, 23, 24, 25, 26, 27, 30。這些人之E-I index值皆為-1。
圖一
圖三
除了節點的特徵之外,網路之中不同 clusters 的分群也是我們關心的特徵,透過分群可以很輕易地判斷出哪些節點之間的同質性較高,分群也可以幫助對於不同類型的 centrality 的大小進行推論。例如,若一個節點獨立連接到一個邊陲的群,則可以推論該節點可能有較高的 betweenness centrality,或是若一個節點所連接到的群有較靠近中心的位置且該群之間的 density 很高,則可以推論該節點可能有較高的 eigenvector centrality。分群的結果如圖四所示,顏色代表不同的群體,而節點大小代表 betweenness centrality 的大小。
圖四
本題嘗試利用不同的 layouts 來凸顯網路的特徵,欲呈現的特徵包含節點的 betweenness centrality,透過節點的大小來呈現,節點的分群,透過節點的顏色來呈現,以及節點之間連結的程度,透過連結的粗細來呈現。
- Force Atlas:呈現如圖五所示,不同的 clusters 在位置上被區隔出來,節點的大小也便於區辨其重要性,不同 clusters 的稠密程度也可以從不同顏色的連結的粗細觀察。
圖五
圖六
圖七
以上三種 layouts 在視覺呈現上都有各自的優劣之處,但整體來說都適合在本資料中想要凸顯的數個特徵。
大學的科系百百種,在這麼多科系之中,我們能如何了解這些科系的特質?例如,哪些科系是「相似的」?熱門科系有哪些?冷門科系又有哪些?此外,有所謂「特殊的」、難以用前面幾種用語簡單描述的科系嗎?
大學學測申請入學或許提供一種方式,讓我們可以了解大學各科系的特質。這些科系能夠透過申請者形成一個網絡 – 若同一個申請者同時申請了兩個科系,那這兩個科系就形成連結。透過許多科系形成的網絡,我們或許能夠嘗試回答上述的問題。
新鮮人查榜的學測交叉查榜https://freshman.tw/cross提供了每年大學申請入學的資料。在每個科系的頁面右欄有現成的網絡資料 – 例如,在臺大法律系的 交叉科系分析https://freshman.tw/cross/104/006342,可以直接看到同時申請臺大法律系和其它科系的人數。
考慮資料取得的容易程度以及伺服器的負擔,我們決定使用** 104 年學測申請入學臺灣大學各系的資料**作為網絡的範圍定義。在此範圍內,網絡的定義如下:
定義:臺大某科系。
例如,臺大圖資為一個 node,臺大森林系為另一個 node。
我們使用 Scrapyhttps://scrapy.org 將臺灣大學各個科系 (共 60 個) 的資料 從新鮮人查榜https://freshman.tw/cross/104/001爬取下來。爬取的資料包含:
此外,臺大各學系所屬學院則由臺大課程網https://nol2.aca.ntu.edu.tw/nol/guest/index.php以及臺大課號編碼作業說明https://nol2.aca.ntu.edu.tw/nol/guest/課程編碼說明.pdf所提供之資訊取得。
Scrapy 爬蟲的原始碼託管於 GitHubhttps://github.com/liao961120/collegeSNA;詳細的變項描述以及資料清理過程記錄於 Jupyter Notebookhttps://liao961120.github.io/collegeSNA/ntuNetwork。
清理過後的資料包含 60 個學系 (node) 以及 634 條連結 (edge)。由於「護理學系(公費生)」並未與網絡中的其它科系形成連結,在視覺化時將其剔除。因此,下文視覺化的網絡由 59 個 node 和 634 條 edge 組成。
整理成網絡資料格式的資料存放於 ntuNetwork_edges.csv
https://bit.ly/2OygdeK 與 ntuNetwork_attr2.csv
https://bit.ly/2U236by。
我們希望透過這筆資料能得出兩種資訊:(1) 哪些科系是相似的;以及 (2) 在考慮招生人數以及 degree 這兩種資訊下,哪些科系看起來比較特殊。
的基本假設是「人們在選擇要申請哪些科系時,應該會有某種『偏好「偏好」可能是個人興趣,也有可能是家人或社會期待,造成人們在選系時,會選擇一群「相似的」科系。』使其選擇『相似』的科系」。因此,透過各科系之間的連結數量以及強度,我們或許可自然地將科系進行分群。
則假設在不考慮各科系的特性下,若一科系的招生名額越多,其 degree 也應該越大,因為一科系招生名額越多,通常也有越多人申請,而這些申請者越有機會同時申請其它的科系。我們可以去觀查哪些科系違反這項直覺,再去猜想原因為何。
依據上述的假設,我們將以下 node 與 edge 的屬性資料對映 (map) 到網絡圖 (圖 3.1) 中的視覺元素:
所有的屬性 (除了 Text Color 之外) 皆有數值梯度,並線性對應到視覺屬性的強度上。
Figure 3.1: 104 年學測申請入學 臺大各系申請網絡連結。svg 原圖: http://bit.ly/104ntuNetwork
根據上述預期與假設的 (2),我們找出了幾個違反直覺的科系:
由 Node 相對 Text 大上許多的科系,我們或許能做出一些猜想。由於醫學系和牙醫系的申請分數通常很高,其相對較低的 degree 可以反映是申請者的選擇而非其它因素 (如分數不足) 使其不申請其它科系。至於人類系的情況則較難詮釋。
至於第二種情況,Node 相對 Text 小許多的情形則比較少見。此情況比較明顯的科系是生傳系。值得注意的是,生傳系在網絡中似乎自成一個 cluster,原因是因為它分別與文學院、管理學院和農學院都有相當數量的連結。
這裡視覺化使用 Gephi 的 MultiGravity ForceAtlas 2 layout algorithm。MultiGravity ForceAtlas 2 是與 ForceAtlas 效果類似的演算法。關於 ForceAtlas 的直覺詮釋如下:
[I]t simulates a physical system in order to spatialize a network. Nodes repulse each other like charged particles, while edges attract their nodes, like springs. These forces create a movement that converges to a balanced state. (Jacomy, Mathieu AND Venturini, Tommaso AND Heymann, Sebastien AND Bastian, Mathieu 2014)
因此,這個演算法會將彼此連結較多或較強 的 Node 放在附近,相當適合用來視覺化分群的結果。
圖 3.1 中的文字顏色代表該系實際上所屬的學院,而圖中空間位置相近的 node 則代表 (由連結的資料上來看) 彼此相似的科系。因此,由圖 3.1 我們可以很快地發現醫學院是最「鬆散」的學院、理學院其次;工學院則相當緊密,且電資學院與工學院非常相近。另外一個有趣的現象是,經濟學系與所屬的社科學院脫離,加入以管理學院為主所形成的 cluster。
Jacomy, Mathieu AND Venturini, Tommaso AND Heymann, Sebastien AND Bastian, Mathieu. 2014. “ForceAtlas2, a Continuous Graph Layout Algorithm for Handy Network Visualization Designed for the Gephi Software.” PLOS ONE 9 (6). Public Library of Science: 1–12. https://doi.org/10.1371/journal.pone.0098679.