鄒明蓁 劉景榮 | 暨南大學中國南海周邊安全國際輿情監測實驗室科研助理
2023年12月10日香港特別行政區第七屆區議會選舉正式舉行,完成了香港特區完善選舉制度的「最後一公里」。本文旨在基於隨機森林模型,研究「愛國者治港」原則下香港區議會選舉中影響直選候選人當選的主要因素,嘗試探索新選制下直選候選人如何通過突出競選政綱差異吸引選票。隨機森林(Random Forest)是一種集成學習(Ensemble Learning)方法,由Leo Breiman和Adele Cutler在2001年提出。它通過構建多個決策樹(Decision Tree)來解決分類和回歸問題,然後通過取平均值(回歸問題)或取多數投票(分類問題)的方式來提高預測准確性、泛化能力和抗過擬合能力。本研究根據jieba庫自定義詞典和自建停用詞表,利用Python進行了文本預處理,通過詞頻分析篩選出與七個核心議題相關的高頻詞彙並進行量化賦值。
自《全國人民代表大會關於完善香港特別行政區選舉制度的決定》(以下簡稱《決定》)、《2021年完善選舉制度(綜合修訂)條例草案》通過以來,香港特別行政區成功進行了選舉委員會選舉、第七屆立法會選舉、第六任行政長官選舉,更是在2023年12月10日舉行了第七屆區議會選舉,走完了完善選舉制度的「最後一公里」。
區議會選舉制度演變
區議會是香港特區地區治理體系的重要組成部分,重塑區議會是完善地區治理工作的重要一環。根據《中華人民共和國香港特別行政區基本法》(以下簡稱《基本法》)和《區議會條例》,香港區議會是非政權性的區域組織。基本法第97條規定,「香港特別行政區可設立非政權性的區域組織,接受香港特別行政區政府就有關地區管理和其他事務的諮詢,或負責提供文化、康樂、環境衞生等服務。」1999年,立法會通過《區議會條例》,明確香港設立18個地方行政區,每區各設立1個區議會,主要職能是就影響地方行政區內居民福利的事宜向政府提供意見,並負責區內的環境、康樂、文化及社區活動等,但不具備立法權和審批政府公共開支的權力。然而,一段時期以來,在反中亂港分子的操弄下,區議會運作不斷走偏,以至失範失序。特別是「修例風波」期間,一批反中亂港分子利用制度漏洞進入區議會,將其變成宣揚「港獨」「黑暴」「攬炒」的平台,嚴重擾亂特區政府依法施政,嚴重挑戰「一國兩制」底線,嚴重威脅國家安全和香港穩定。有鑒於此,香港特區全面落實「愛國者治港」原則,重塑區議會制度,準確落實香港基本法,通過系統性改革使區議會徹底擺脫政治化、民粹化的紛爭泥潭,將區議會重新納入基本法的正確軌道。
2023年7月6日,香港特區立法會三讀並全票通過《2023年區議會(修訂)條例草案》(以下簡稱《條例草案》)。《條例草案》涵蓋6條主體法例及15條附屬法例,就9項主要事宜訂定條文。包括:將區議會的總席位從479個減少到470個,其中只有88個由地方選區直接選出,176個由地區委員會間接選出,179個由行政長官委任,27個由鄉事委員會主席擔任;將地方選區的選舉方式從單席單票制改為雙席單票制,即每個選區有兩個議席,每名選民只能投一票,選出得票最多的兩名候選人;引入資格審查委員會,負責審核所有候選人是否符合效忠香港特別行政區和維護《基本法》的法定要求,以及是否符合國家安全法的規定;引入履職監察機制,負責監督所有區議員是否履行宣誓效忠的義務,以及是否違反國家安全法的規定,如有違反,可取消其資格或提請法院裁決;取消區議會主席和副主席的選舉,改由民政事務專員兼任區議會主席,負責主持會議和管理議會事務。
研究設計
在滿足提名區議員資格的前提下,為了探究哪些因素可能影響直選候選人當選,本研究假設新選舉制度下,直選候選人通過突出政綱差異來吸引選票,並通過定性與定量相結合的方式選定可能的影響因素,利用機器學習算法探究在實驗環境下影響因素的重要程度。
1.數據來源與收集
本文選取的數據主要來自2023年香港區議會一般選舉網站、候選人社交賬號以及香港電台(RTHK)《2023香港區議會選舉論壇》(以下簡稱「選舉論壇」)節目。選舉論壇邀請了地方選區界別和地區委員會界別的候選人出席陳述政綱及解答地區問題,各候選人需要在30秒內進行自我介紹,在1分30秒內回答一條抽簽選出的涉及地區問題的題目。從而從知識面、熟悉地區程度及應變能力等方面考驗候選人,增加公眾對他們的認識,了解其議政水平。本文整理並構建了一個適用於香港選舉話語的數據庫,同時按照傳統選舉研究經驗,從選舉官網獲取了所有出席節目的候選人與政黨、年齡、職業等相關信息,以供後續研究使用。
2.數據預處理
獲取文本數據後,首先進行數據清洗工作,包括去除無效數據、人工收集產生的失誤、重複數據的剔除,及特殊字符的處理。由於主流大數據研究工具處理簡體中文文本的效能更佳,本研究將繁體文本轉換為簡體中文文本。考慮到地方選區界別面向廣大選民,候選人需要爭取不同團體的選票,因此本研究在剔除未出席節目候選人後確定由44個地方選區的169位候選人的共79,091字的有效文本為最終研究樣本。
為保障模型的準確性,對文本進行分詞、去停用詞,是自然語言處理的必要過程。本研究以Python為主要研究工具,在其第三方庫jieba庫基礎上結合搜狗細胞詞典、谷歌Gboard詞庫,並與自行搜集的香港特別行政區政治術語、專有詞彙(如「民建聯」「避風塘」「三無大廈」等),一同構建了區議會選舉術語詞典,對研究樣本進行分詞處理。停用詞是指文中出現頻率較高但信息量較少的詞彙和無用符號,會對關鍵詞抽取產生噪聲,因此需要去除。本文根據哈爾濱工業大學、四川大學等開源的停用詞表,結合迭代測試結果,形成了一個適用的停用詞表。這個停用詞表中除了常規的中文停用詞例如「的」「大家好」等,以及部分符號例如「!」「、」等外,還包括了如候選人人名、選區名等在特定語境下對模型構建關係不大的詞彙,從而更好地規範數據。為了減少不必要的干擾,本研究將香港政團領袖和網絡意見領袖的稱呼統一為「資深議員」和「KOL」,將所有「政治聯繫」統一為「政黨」以便於後續分析。
3.詞頻統計
本研究對競選文本進行詞頻分析,通過統計詞彙在文本中出現的頻次,識別和提取話語規律以及候選人們關注的議題信息等要素。
本次選舉形成了「身份背景—議題關注—解決路徑—預期成果」的競選話語模式,政黨的「代表」功能更為突出,彰顯「政黨政治」新氣象。候選人在選舉論壇上提及代表自身政治聯繫的「政黨」共397次,明確區議會的「服務」(273次)對象為「居民」(208次)「市民」(120次),明確區議員負責的對象「政府」共217次,代表其選區範圍的「社區」共288次,界定其所屬的地方選區的「地區」共108次。具體來說,候選人傾向於從介紹「政黨」和「專業」(61次)背景出發,展現「團隊」(96次)過往在「地區」和「社區」的「服務」績效和「經驗」(69次),提倡「關注」(58次)區內的「交通」(152次)、「設施」(107次)、「環境」(72次)、「衞生」(39次)、「醫療」(45次)等議題,建議共建「長者」(69次)友好和包容「少數族裔」(17次)、「婦女」(22次)的社區「文化」(56次)。
4.變量操作
本文的因變量為候選人的當選結果,即候選人是否在選舉中成功當選,「當選」賦值為1,「落選」賦值為0。自變量包括候選人的性別、年齡、職業經歷及候選人競選文本中所關注的議題。候選人「性別」採用了男(編碼為1)女(編碼為0)的編碼方式,並用同樣方式對候選人的「職業經歷」進行了分類編碼,包括「政黨服務經歷」 「專業人士經歷」 「商業領域經歷」 「法律行業經歷」 「教育行業經歷」 「社團與社會服務經歷」 「媒體經歷」 「區議員經歷」 「其他經歷」。「關注議題」通過前述詞頻分析中提取的高頻詞彙量化賦值來表示。具體包括「社區」「地區」「交通」「環境」「衞生」「文化」「資深議員」等7個自變量。除頻次外,本研究還將具體語境下相關的詞彙頻次合併計入變量數值,例如將詞彙「女性」納入「文化」變量當中。本文不作單獨的控制變量設置。
5.分析方法
為了探討影響候選人當選的因素,本研究採用了隨機森林分類算法模型。隨機森林(Random Forest)是一種集成學習(Ensemble Learning)方法,由Leo Breiman和Adele Cutler在2001年提出。它通過構建多個決策樹(Decision Tree)來解決分類和回歸問題,然後通過取平均值(回歸問題)或取多數投票(分類問題)的方式來提高預測準確性、泛化能力和抗過擬合能力。隨機森林的基本思想是構建多棵決策樹,每棵樹都是獨立的,並且樹中的特徵是隨機選擇的,這樣可以減小模型的方差。在進行預測時,隨機森林對每棵樹的預測結果進行平均(回歸問題)或投票(分類問題),從而得到最終的結果。這種方法適合處理含有大量特徵的數據集,在選舉研究的情境下,候選人的多種特徵可以被模型自動處理,而無需進行事先的變量挑選。同時,通過構建多個決策樹並對它們的預測結果進行合併,在統計上能夠減少過度擬合的風險,提高模型的表現。
隨機森林算法的具體實現步驟如下:
1. 數據集載入。準備所需的數據,加載數據集,處理缺失值並確保所有變量都是數值類型。
2. 數據切割與訓練。為了訓練和驗證模型,將數據集劃分為訓練集(70%)和測試集(30%)。訓練集用於訓練模型,測試集用於評估模型的擬合效果和預測精度。自變量包括候選人的各項影響因素特徵,因變量為候選人是否當選。使用 train-test-split 函數進行數據集的分割。
3. 在訓練集上訓練隨機森林模型。本研究使用 Random Forest Classifier 構建模型,並設置了隨機種子(random-state)以確保結果的可重複性。模型訓練完成後,使用測試集數據進行預測。
4. 通過計算準確率、混淆矩陣和分類報告來評估模型性能。準確率表示模型正確預測的比例。混淆矩陣詳細顯示了真陽性、假陽性、真陰性和假陰性的數量。分類報告提供了精確率、召回率和F1得分等詳細指標。
5. 使用交叉驗證來評估模型的穩定性。通過5折交叉驗證查看模型在不同數據子集上的表現,交叉驗證結果展示了每次驗證的準確率,並計算了平均準確率,以評估模型的泛化能力。
6. 評估每個特徵(影響因素)的重要性。特徵重要性反映了每個特徵對模型決策的貢獻。使用Random Forest Classifier的 feature importances屬性獲取每個特徵的重要性,並對其進行排序。通過matplotlib庫可視化特徵重要性,展示特徵對模型的影響大小。
結果與討論
1.模型性能
模型的總體準確率為82.35%,這意味著在測試集的51個樣本中,有42個樣本被正確分類。模型在識別候選人是否當選方面表現出較高的可靠性和穩定性。混淆矩陣顯示,在23個實際未當選的候選人中,有17個被正確分類為未當選,有6個被錯誤分類為當選。在28個實際當選的候選人中,有25個被正確分類為當選,有3個被錯誤分類為未當選。這些結果表明,模型在預測當選的候選人時具有較高的準確性,但在預測未當選的候選人時存在一定的誤差。
分類報告進一步細化了模型的性能。對於未當選類別(0),精確率為0.85,召回率為0.74,F1得分為0.79。對於當選類別(1),精確率為0.81,召回率為0.89,F1得分為0.85。總體來說,模型的宏平均精確率、召回率和F1得分分別為0.83、0.82和0.82,這表明模型在兩個類別上的表現比較均衡,但在識別未當選候選人方面稍遜色於當選候選人。交叉驗證的平均準確率為68.24%。通過5次交叉驗證,模型在不同數據子集上的準確率分別為55.88%、67.65%、73.53%、82.35%和61.76%。這一結果表明,模型的性能在不同數據子集上有所波動,但總體保持在較高水平。這反映出該模型具有一定的泛化能力,能夠在不同的樣本數據上維持較穩定的表現。
2.影響因素解釋
「政黨能力」的特徵重要性約為23%,是最重要的影響因素。「政黨能力」由候選人所屬政黨的公開黨員人數,政黨在立法會的議席數量,政黨高層擔任港區全國人大代表、全國政協委員的情況構建。過往選舉經驗說明,在地區投入較多資源、時間進行地區服務的政黨更有可能取得席位。本研究結果表明,候選人所屬政黨的規模越大,政黨能力越強,該政黨越有可能通過其龐大的地區網絡和工作模式吸引選票。
「年齡」是第二個重要的因素,特徵重要性約為15%。年齡往往與候選人的經驗和背景相關。較年長的候選人可能擁有更多的地區經驗和社會資源,這些因素在選舉中可能會給他們帶來優勢。然而,年輕候選人也可能因為「新面孔」而贏得選民的支持。研究發現,本屆區議會地方選區候選人平均年齡約為38歲,比2019年區議會選舉整體的平均年齡(40.3歲)低2歲,則進一步驗證了區議會候選人年輕化的趨勢。結合「區議員經歷」的特徵重要性(約5.4%),以上結果可能表明本屆選舉候選人更加年輕化、多元化。
與地區議題相關的影響因素顯著,特別是「交通」和「社區」,分別約為10%和9%。結合政治現實來看,交通是全港市民十分關注的議題,不論是港島、九龍還是新界,主要的需求都是圍繞當區交通規劃和配套如港鐵班次和巴士路線而展開。值得一提的是,「資深議員」的結果不顯著,這再一次驗證了「明星效應」的含金量下降,難以靠「政壇明星」吸引選票。
結論
首先,「政黨政治」是香港選舉最大的特色,「政黨能力」是影響候選人當選的最重要因素。研究表明,候選人所屬政黨的能力越大,其當選的可能性越高。此結果揭示了政黨在選舉過程中的核心作用,特別是在資源分配、組織動員及選民影響力方面的顯著作用。這一發現與以往選舉研究結論一致,進一步證實了政黨「代表」功能和「組織動員」能力在香港選舉中的重要性。
其次,年齡顯著影響候選人的當選概率。較年長的候選人由於累積了更多的地區經驗和社會資源,獲得選票的可能性更大,但年輕候選人在選舉中也表現出較強的競爭力,反映出選民對「新面孔」的接受程度較高。地方議題的關注度對候選人當選具有顯著影響,特別是交通和社區議題在此次選舉中起到了關鍵作用,選民更傾向於支持那些能夠提出具體、可行的對策來解決他們日常生活問題的候選人。
此外,研究顯示,「明星效應」在本次選舉中並不顯著。即使候選人爭取到知名度較高的「明星」撐場,如果未能提出具體的政策和解決方案,選民也未必會給予投票支持,這進一步表明,選民在選擇候選人時更加注重實際的政績和問題解決能力。
本研究首次將隨機森林模型應用於香港區議會選舉研究中,證明了其在處理複雜選舉數據和識別關鍵因素方面的有效性。隨機森林模型能夠處理多變量的複雜關係,並通過評估變量的重要性,揭示影響選舉結果的關鍵因素。這一方法為未來的選舉研究提供了新的工具和思路,為理解香港選舉制度和方法提供了一定的參考意義。
本研究選取的影響因素都屬於信息較易獲取、能夠量化處理的變量,但也有一些因素同樣對候選人當選有重要影響,如候選人的「樁腳」數量及效應,選民個人特徵和態度等。對於這些因素,本研究既無法系統性地獲得準確信息,也難以將此類信息量化,所以不得不舍棄。由此可能難以全面準確地反映當選規律,這也是量化研究所普遍存在的缺陷。因此本文的研究並不能替代定性研究,而是對定性研究的補充。同時,本研究的模型對當選預測的總體準確率為82.35%,也就是說,仍有約18%的投票選擇沒有被正確預測,這部分的預測錯誤集中體現了本文忽略了其他因素所帶來的缺陷。因此本文只反映了選舉影響因素的一部分,對於更全面準確的理解,有賴於在未來的研究當中對於綜合性的、難以量化的因素進行更加深入的分析。
本文發表於《紫荊論壇》2024年7-9月號
掃描二維碼分享到手機