黃錦輝：利用人工智能辨別媒體偏見-紫荊網

黃錦輝：利用人工智能辨別媒體偏見

日期：2024-12-31 瀏覽量：字號：大中小

分享到

文 | 黃錦輝

在新聞學的理論上，媒體報道需要具事實及客觀性，但在現實中，新聞報道往往並非如此。商業及政治傳媒機構往往基於經濟利益或政治宣傳理由，發表具偏見的言論。再者，在當下訊息爆炸時代，網上獨立新聞工作者往往隨意地推出主觀的帖文，這些海量具偏見的資訊在網絡上泛濫，令社會更難把關。而長期閱讀帶有偏見的新聞報道，難免會令讀者的思想變得極端，影響社會和平及穩定的發展。因此，辨識新聞報道中的偏見，是近期人工智能（AI）的熱門研究題目，筆者亦參與多年。本文簡介筆者自動偏見辨識研究背後資訊分類的基本原則。

言辭可誇張訊息或偏頗

媒體在報道有關社會事件、問題或衝突等的新聞時，傾向於對某一方、某一政策或者某一觀點提供持續性支持或反對的意見，這現象在學術上被定義為“媒體偏見”（Media Bias）。在西方，“媒體偏見”通常會與政治立場拉上關係。技術上，要直觀地識別出新聞報道中的偏見，我們可以從新聞文本出發，將“媒體偏見”分類為言辭上的偏見及訊息上的偏見。

在言辭上，偏見表達方式可分類為“嘩眾取寵”（Exaggeration）、“刻板印象”（Stereotype）、“斷章取義”（Quote Out Of Context）、“子虛烏有”（Hypothetical）等。媒體報道中常見“爆”、“瘋”等誇張詞語，用來吸引讀者注意力，但這些用詞手法難免會誇大或縮小相關問題的重要性，更會引起讀者恐慌或忽視。如果在報道中加深了對某些群體的刻板印象，將會導致在多元社會中不同群體之間的矛盾，甚至引發互相之間的仇恨。斷章取義也是一種常見的媒體報道的形式，僅僅選用採訪對象陳述中的一小部分，來支持自己的主觀意見。而預測性地說“假設……將會……”也是一種主觀偏見，誘導讀者接受報道者自己的觀點，包括與事實不符的言論。

然而，相比言辭上的偏見，訊息內容上的偏見則更難以識別。內容偏見可分為三大類，訊息遺漏、意見失衡、內容具煽動性等。其中最容易被識別的就是煽動性的報道，也就是新聞學所指的“膻色腥”（Sensational）報道。這類內容主要是利用嘩眾取寵、聳人聽聞的方式，不惜罔顧事實真相，不顧一切去吸引讀者的注意力。相比之下，其他兩種散播偏見的手法則較為隱蔽。舉例，凡事都有兩面，必然會有支持及反對者；正因如此，有些媒體為了表達自己對事件的支持，故意遺漏掉反對者的聲音；又或者相反地為了表達反對意見，而對事件的優點避而不談。另外，不平衡的報道是指媒體對自己所支持的觀點濃墨重彩，而對其他事情則一筆帶過，草草了事便算。

慎防LLM把謊言當主流

人工智能“媒體偏見識別”系統建基於“大型語言模型”（Large Language Model, LLM）。運用傳統“深度學習”（DL）方法，“偏見識別”LLM學習大量具偏見句子的表達方式，從中分析及了解句子的語法（Syntax）及語義（Semantic）之常用規則，之後用作偏見預測。然而，這方法對識別言辭上的偏見較為有效，對辨別訊息上的偏見卻較弱，因為語義分析遠比語法困難。要解決這問題，其中一個做法是在學習過程中，在面對同一事件時多輸入不同立場的媒體報道。不過，大家要注意的是，相關LLM學習算法本身是否帶有偏見。有研究指出，基於統計學“多數決定”（Majority Rule）原則，LLM通常是“左傾”的。所謂“謊言重複一千遍就是真理”；同樣地“千個偏見”便會被定性為主流意見。因此，用戶不應不假思索便全盤接納AI“偏見識別”的分析結果。

（作者係立法會議員，文章僅代表作者個人觀點）

黃錦輝：利用人工智能 辨別媒體偏見

黃錦輝：利用人工智能辨別媒體偏見