1. 程式人生 > 其它 >頒獎烏龍就算了,怎麼還性別歧視,好萊塢電影怎麼了?資料笑而不語

頒獎烏龍就算了,怎麼還性別歧視,好萊塢電影怎麼了?資料笑而不語

原作者 Amber Thomas

編譯 CDA 編譯團隊 Mika

本文為 CDA 資料分析師原創作品,轉載需授權

頒獎烏龍

第 89 屆奧斯卡頒獎典禮昨日落幕,《愛樂之城》無非是最大的贏家。但原本波瀾不驚未現黑馬的頒獎典禮居然在最後一刻爆出史上最大烏龍:先是宣佈《愛樂之城》獲得最佳影片獎,然而劇組獲獎感言都快說完了,又被突然攔住說獎項頒錯了,最佳影片獎應是《月光男孩》。

真是隔著螢幕都能感到尷尬。

無緣影帝,又被假最佳影片叫上臺的高司令,還要在臺上祝賀《月光男孩》劇組。心疼高司令一秒。

那麼昨天頒獎烏龍對網路熱搜產生了什麼影響呢?頒獎烏龍時約為北京時間 13 點左右,根據谷歌指數此時奧斯卡搜尋指數達到最高點。

入圍最佳電影的熱搜變化如下,在頒獎烏龍後,獲得最佳影片的《月光男孩》搜尋逐漸趕超《愛樂之城》。

奧斯卡相關搜尋可見,關於奧斯卡頒獎烏龍的搜尋量特別高。

主辦方解釋頒獎烏龍的原因是因為工作人員錯把“最佳女主角”的備用信封當成了“最佳影片”的信封,給了頒獎嘉賓沃倫·比蒂,而備用信封上寫著“艾瑪·斯通,《愛樂之城》”。

不可否認石頭姐獲得最佳女主角實至名歸,但石頭姐表示這個鍋我不背。

奧斯卡頒獎烏龍,就算把最佳女主角的頒獎卡拿出來當作最佳影片念一遍,也擋不住電影裡面的女性角色戲份越來越少。


好萊塢電影背後的性別歧視

透過資料,我們看到頒獎烏龍帶來的蝴蝶效應。

同樣,通過資料美國有個女程式設計師 Amber Thomas 發現了好萊塢電影中居然還存在性別歧視。

這一切的起因還要從這張《星球大戰外傳:俠盜一號》(以下簡稱《星戰》)的海報說起。

有這麼一個不成文的定律:

一般在海報中當一個人的照片比其他人大好幾倍時,那這個人多半是主角。

這張海報中可以清楚的看到主角就是 Jyn Erso 。

但容易忽略 Jyn 是這種海報上唯一的女性角色。這也同樣反映到這部電影中,不僅女性角色屈指可數,很多時候 Jyn 是眾多場景中唯一的女性。

此情此景如 1977 年《星球大戰》中 Princess Leia 的情況如出一轍。

那麼在 39 年後的今天,

好萊塢電影中性別比例失衡的改觀了嗎?

好萊塢電影中女性逐漸掌握話語權了嗎?

帶著這些質疑,Amber 開始了她的資料分析。她根據 the numbers 提供的2016年全球票房前十的影片為研究物件,這十部電影分別是:

美國隊長 3 :內戰

海底總動員 2 :多莉去哪兒

瘋狂動物城

奇幻森林

愛寵大機密

蝙蝠俠大戰超人:正義黎明

星球大戰外傳:俠盜一號

死侍

神奇動物在哪裡

X特遣隊

這些電影中都有許多令人印象深刻的女性角色,那麼從中自然能看到些性別的平等吧?

出於程式設計師的嚴謹,Amber 決定用資料說話。證明這個觀點,我們需要這幾步:

資料

程式碼

資料視覺化


資料

現在確定了研究物件,還需要確定資料來源。有些類似的資料分析專案常常根據人物臺詞和出鏡時間為判斷的標準。這都是不錯的選擇,但是 Amber 希望更深入的探討電影和角色的關係。

最終她選擇了男女角色的臺詞比重這一角度切入。這樣能夠專注於在故事中發揮積極作用的角色,並去除沒有臺詞的角色。

有很多粉絲會整理電影中臺詞,並且免費分享。對於找不到臺詞的電影,Amber 只能對照字幕檔案一個個整理。顯然這一過程是費時的,但是結果證明這都是值得的。


分析

一旦有了臺詞,只需要把 txt 檔案匯入 R,然後把角色和臺詞分開分析。以《星戰》為例,操作如下:

# Installing Necessary Packages
# For Web Scraping Transcripts
library(rvest)
library(curl)
# For Data Frame Manipulation
library(dplyr)
library(tidyr)
library(stringr)
library(stringi)
# Import Transcript (with formatting)
RO <- readLines("RogueOneTranscript.txt")
# Convert to Data Frame
RO <- as.data.frame(RO)
# Remove empty rows
RO <- RO %>% 
        filter(!(RO == ""))
# Separating Character from words
RO_full <- RO %>% 
          separate(col = RO, into = c("Character", "Words"), sep = ":", extra = "merge") %>% 
          # Eliminate script notes
          filter(!is.na(Words)) %>% 
          # Trim white space and convert Character to factor
          mutate(Character = as.factor(str_trim(Character)), 
                 Words = str_trim(Words))

現在我們有了角色和臺詞的資料框架,然後需要判定每個角色的性別。

為了保證分類的一致性,制定了以下規則:

1. 儘可能根據指稱角色的代詞來分判定配性別。 如果一個角色被稱為“ he ”或“ him ”,則他被歸類為“男性”。

2. 如果電影該角色沒有代詞指稱,但是角色在 IMDB 上有被標註,則使用演員或女演員的性別。

注:演員的性別根據截止至 2017 年 1 月的公開資訊判定。(美帝程式設計師真是嚴謹)

3. 如果沒有角色代詞指稱,並且角色未標明演員,則參考字幕(有時會表明角色性別)。

4. 如果以上規則都不適用,則根據角色的聲音判定性別。

顯然這些規則存在著缺陷,這裡有一些注意事項:

1. 如果男性角色由女演員配音(反之亦然),且該角色從未用代詞指稱,他可能被判斷錯誤。 (這裡可能性很小,但是不排除。)

2. 電影中若出現不具有實體角色的聲音(例如,電影中電腦的聲音),則根據配音演員的性別分類。

3. 真正判定所以角色的性別有一定,但將盡可能利用所擁有的提示和資訊。

所以現在我們只需要計算每個角色的臺詞數。 這些通過 dplyr 和 stringipackages 在 R 中就能輕鬆實現。

# Counting words per character
RO_full2 <- RO_full %>% 
                mutate(count = stri_count(Words, regex = "\S+")) %>% 
                group_by(Character, Gender) %>% 
                summarise(Total_Words = sum(count)) %>% 
                filter(!(Gender == "unknown"))

資料視覺化

現在我們得到了資料結果。但是,僅僅顯示臺詞數量和角色的表不僅枯燥,而且也不直觀。

哪種形式最利於展現結果呢?

散點圖和條形圖顯然不太合適。

一個簡單的氣泡圖似乎是不錯的選擇,但很看清不同角色的臺詞比重。

最終, Amber 決定用 d3.js 來製作互動式圖形。 每個氣泡表示一個角色,並且氣泡的面積等同於該角色的臺詞比重。 同時男女臺詞的的氣泡可以分開,表現更清晰。下方的條形也清晰的表明了電影中角色性別佔比以及性別臺詞佔比的資訊。

結論

最終我們得到的結論如下圖:

在 2016 年全球票房前十影片中:

沒有一部影片中(有臺詞的)女性角色佔比達到 50% 。

《海底總動員 2 :多莉去哪兒》性別比重最為平等,(有臺詞的)女性角色佔 43% 。但要完全實現平等的話,起碼還需要 8 個(有臺詞的)女性角色。

《星戰》在這點上是最糟糕的,(有臺詞的)女性角色僅佔 9% 。 且所出現的 10 個女性角色中,有 1 個是電腦的聲音; 1 個在螢幕上出現不足 5 秒;還有 1 個是隻說了一個詞的 CGI 角色。

只有一部影片中 50% 的臺詞是女性角色所說的

《海底總動員 2 :多莉去哪兒》中女性臺詞比重 53% 。 但是,這些臺詞的 76% 都來自多莉這一個角色。

最後一名是《奇幻森林》,女性臺詞僅佔 10% 。 注意:電影中斯嘉麗·約翰遜作為雄性蛇 Kaa 的配音。(心疼女神一秒)

我們還可以看到:

·《海底總動員 2 :多莉去哪兒》和《瘋狂動物城》是 2016 年全球票房前十中唯一的兩部電影中女性角色臺詞最多的。

·《美國隊長 3 :內戰》中的女角色遠遠低於男性角色,僅佔 5 分之一。在整個電影中,女性角色只貢獻了 16% 的臺詞。

·《蝙蝠俠大戰超人:正義黎明》中蝙蝠俠的臺詞比超人多 2.4 倍,比神奇女俠多6倍。

·《星戰》中 78% 的女性臺詞都來自 Jyn Erso 。

·雖然小丑女 Harley Quinn 是《X特遣隊》中大力宣傳的角色,但是她的臺詞只有威爾史密斯飾演的 Floyd/Deadshot 的 42% 。同時影片中另一個女性角色, Viola Davis 飾演的 boss —— Amanda Waller 僅說了 222 個單詞,僅為 Deadshot 臺詞的 16% 。

開始這個專案時,只是感覺《星戰》中臺詞男女分配不均。結果分析完發現 16 年的十大熱門電影中幾乎沒有一部是性別平等的。

好萊塢,我們可以做得更好。

ref:

https://medium.freecodecamp.com/women-only-said-27-of-the-words-in-2016s-biggest-movies-955cb480c3c4#.i4llgxqrv