2011年11月14日 星期一

研究回顧:運用意見分析技術於選舉預測 – 以台灣為例

張貼者: OpView研究團隊 於 上午10:00 ,



圖片來源:nipic.com



1930年代起,有人開始對報紙內容進行研究,逐漸發展成了重要的研究方法之一,稱為內容分析法(content analysis),是對於傳播內容,做系統性客觀和量化的歸類統計,進行敘述性的解說[1]。與問卷調查法不同之處,在於內容分析法為「非介入性的研究(unobtrusive research)」,有其特殊價值 [2]


隨著資訊科技的突飛猛進,原本習用於內容分析法的次數統計,由搜尋引擎與意見分析(opinion analysis)技術所取代,並且改以軟體系統,一致性地處理更大規模的內容資料。而新興的文字探勘(text mining)技術,能自動找出高品質的資訊,例如趨勢、關聯、新議題等,成為敘述解說的重要線索。


本研究團隊運用搜尋引擎與意見分析技術,以網路新聞為資料範圍,針對每篇新聞,解析出各方意見,計算提及每位選舉候選人的次數,並設計一加權指標。之後,藉由比較不同選舉候選人的加權指標,預測可能的選舉結果。假設加權指標愈高者,其當選機率愈高。





 

本研究團隊依上述方法,發展出一套網路意見分析系統,實際應用在台灣選舉預測:於2009年縣市長選舉,17個縣市的選舉預測結果有15個正確[3, 5],預測正確率達88.23%;於2010年五都市長選舉,5個縣市的選舉預測結果有4個正確[4, 6],預測正確率達80%。此外,該系統運用Text Mining技術,可列出與各個政黨相關的熱門關鍵詞。






2009年的預測結果中,宜蘭縣長候選人呂國華因「童玩節事件」致使有較高的加權指標,但仍落選;花蓮縣長候選人傅崑萁脫黨參選,在最後一週的加權指標才急速拉高,因此雖然整體加權指標較低,仍然當選。2010年的預測結果中,新北市長候選人蔡英文因身兼民進黨主席,因此在加權指標上較有利。扣除上述預測錯誤的個案,二次選舉的整體預測正確率可達86.36%。


展望未來,為了能更加掌握網路選情,一方面可加入情緒分析(sentiment analysis)技術,了解選民的正負面態度,另一方面將擴大資料範圍至網路社群內容(user-generated content) [7]。伴隨著這些進步,可以預見這套系統的預測與分析能力將更加提升,成為選舉預測方法的主流。


    參考資料
  1. Bernard Berelson., Content Analysis in Communication Research. Macmillan Publishing, 1971
  2. Earl R. Babbie, The Practice of Social Research (10th Edition). Wadsworth Publishing, 2003.
  3. 2009第十六屆縣市長開票一覽, http://mag.udn.com/mag/vote2009/storypage.jsp?f_ART_ID=223118
  4. 2010年中華民國直轄市市長暨市議員選舉, Wikipedia
  5. OpView Vote 2009, http://vote2009.opview.com.tw
  6. OpView Vote 2010, http://vote2010.opview.com.tw
  7. OpView Vote 2012, http://vote2012.opview.com.tw



作者:
楊立偉博士 Li-wei Yang, Ph. D.
台灣大學資訊管理學博士,現任教於台灣大學與台灣科技大學。研究領域為搜尋引擎、知識工程(knowledge engineering)、知識管理等,擁有近20項技術專利。楊立偉博士參與了OpView系統共同設計,該系統為國內最大的網路商情與口碑監測平台。



Back Top