我一度以為,在YouTube點開The Big Moon的〈Your Light〉,不論有否用瀏覽器的incognito mode來銷聲匿跡,人工智能總會在側欄推薦Girl Ray的〈Show Me More〉──畢竟這兩支MV,非常湊巧,都是樂隊成員看著鏡頭在騎腳踏車──可惜實情並非如此。雖說機器學習的箇中因由,不易明辨,但YouTube終究以賺錢為本,讓觀眾看到更多廣告,收取廣告費才算第一要緊。側欄光以影片的本質來排,確實強人所難。
再者,音樂錄影帶在YouTube的標題往往就是歌名,與影片中的行為毫不相干,所以要在MV的汪洋中,撈出另一支同樣是騎腳踏車的MV,殊不簡單。以機器學習認物,眼下已屬等閒事,深度學習甚至可以把腳踏車的零件一一找出來。不過,從影片辨認一輛腳踏車,和辨認有人在騎腳踏車,又是兩碼事了。近來盛行的multimodal learning,正正應對video captioning這般難題。倘若成事,人工智能就曉得The Big Moon在〈Take A Piece〉的音樂錄影帶中模仿九十年代的boy band跳舞。
文章定位: