※10億張人臉數據被抓取,我們正面對無處不在的“偷臉”※
2020年11月14日10:30 中國新聞周刊
“你面前的人臉識別機,只要掃一下你的臉
比你更清楚你的銀行卡餘額”
人臉數據,如果被洩露並與其他數據關聯
將帶來災難性的後果
2019年12月6日,第二屆浙江國際智慧交通產業博覽會·未來交通大會上,人們體驗模擬交通道路上的AI人臉識別系統。圖/IC
陰影下的人臉識別產業:被低估的風險
本刊記者/楊智傑
發於2020.11.16總第972期《中國新聞周刊》
清華大學法學院教授勞東燕的抗爭,贏得了一次小小的勝利。
今年3月,勞東燕在小區單元樓電梯口意外看到一張公告:小區即將在每個單元樓門口安裝人臉識別門禁系統,下方附了一個二維碼,要求業主自行掃碼登記,上傳人臉、身份證和房產證等信息。出於職業本能,在人臉識別過度應用上,勞東燕一直是堅定的反對者。她給物業和居委會寫法律函、郵寄過去,提醒對方,不經同意而收集個人的生物信息,違反現行的法律規定。在和街道、業委會與物業開展了四方“談判”後,該小區推行人臉識別門禁的計劃無限延期,至今尚未開啟。
不僅是勞東燕,越來越多的知名高校法學院教授站出來說不。“北大法學院的一位教授,他寫過關於人臉識別的文章,有小區的業主拿著他的文章給物業公司看,隨後物業擱置了人臉識別系統的安裝。我有一位同門師兄,也是刑法專業的老師,在大學園區提出安裝人臉識別系統時,他追問是哪個部門要求收集,能否拿出相應的法律依據?後來,安裝的事情就不了了之了。”勞東燕寫道。
法學教授們的擔心,正在逐漸成為現實。以人臉信息交易為核心的黑色產業鏈,不僅存在,而且非常猖獗。近日,央視新聞報導,在某些網絡交易平台上,花2元就能買到上千張人臉照片,照片主人可能會遭遇精準詐騙、財產損失,甚至人臉可能被用於洗錢、涉黑等違法犯罪活動。“你面前的人臉識別機,只要掃一下你的臉,比你更清楚你的銀行卡餘額”。人臉數據,如果被洩露並與其他數據關聯,將帶來災難性的後果。
“人臉識別的風險超出你所想。”勞東燕告訴《中國新聞周刊》,“你不知道是誰在收集人臉,不知道到底收集了你哪些信息,也不知道對方保存了什麼,更不知道對方怎麼使用。後面全部都是黑箱。”
“人臉”被偷了
“3萬張人臉庫、15萬條記錄,嵌入行業的深度學習算法為核心,人臉識別準確率>99.97%、識別速度<200ms。人臉識別終端,結合精準紅外測溫模塊及人臉識別算法,就可以實現人臉識別和非接觸測溫二合一的功能。”這是一款人臉識別+測溫一體終端的產品介紹。這樣的產品,因為今年疫情而銷售火爆,大量出現在了商場、寫字樓、辦公機構、地鐵站、火車站的入口。除了測溫,這些產品的另一個被忽視的功能是:採集人臉信息。
從技術上來看,採集人臉信息很簡單,只要有攝像頭就可以不間斷採集。很多人都有這種感受,收集並使用人臉數據的工具和場景,正變得越來越多:擁有相冊讀取權限的App、提供人臉解鎖功能的手機廠商、進行身份驗證和麵部檢測的各種金融類App,甚至是辦公樓裡的刷臉出入系統,以及無處不在的安防攝像頭。
除了少數獲得用戶同意的軟件或場景,大量場景下的人臉信息採集,悄無聲息。“部分商城會運用人臉識別技術,收集顧客的行為和購買手段”“一些高校運用人臉識別技術收集學生的抬頭率、微表情、上課的姿態”,以及“基於人臉圖像分析的換臉、美妝、性格判斷、健康狀態預測等應用”。南方都市報人工智能倫理課題組和App專項治理工作組發布的《人臉識別應用公眾調研報告(2020)》(以下簡稱《報告》),列舉的上述場景中,這些“靜悄悄”收集的方式,被多數受訪者難以接受。
3月31日,安徽合肥市紅星路小學(國際部)的教師通過智慧校園人臉識別閘機系統進入校園。圖/中新
“從數據收集環節來看,人臉識別具有無意識性與非接觸性,可以遠距離發揮作用,並能長時間大規模地積累數據而不被用戶察覺,具有很強的侵入性。”勞東燕撰文分析。
數據採集是人臉識別產業的最前端,因為人臉識別的準確度,需要靠大量的人臉數據來“投餵”。多位技術人員告訴《中國新聞周刊》,技術發展早期,數據主要來自於機構或者高校實驗室的公開數據集,公司找志願者有償採集也是重要途徑。
雲從科技相關負責人告訴《中國新聞周刊》,雲從科技為此構建了一個由91個攝像頭組成的矩陣用於全方位採集人臉,2年時間採集了1000個人,每個人產生了20萬張圖片,共計2億張圖片。採集的人臉數據場景也非常豐富,包括不同表情和服飾,比如閉眼、皺眉、微笑、大笑、戴眼鏡、戴帽子等等。另外還會蒐集不同光線環境下的數據,例如逆光、背光、陰陽臉等。
但線下採集的數據遠遠不夠,雲從科技還從網絡抓取了1000萬人大概10億張人臉數據,加入到機器學習的數據庫中。基於這些海量的數據,公司人臉識別準確率從68%上升到99%。
使用爬蟲工具抓取互聯網上公開的照片,成為整個行業的普遍做法。中科院計算所研究員山世光研究計算機視覺和機器學習,也是人臉識別公司中科視拓的創始人之一。他曾告訴《中國新聞周刊》,人們在網站上傳照片,如果能找到兩三張或者十幾張照片,這個人的數據就可以用來給算法做能力建設。這些數據包括一些明星、體育運動員、政治人物的照片,也包含普通人的照片,數量龐大。
黃昊(化名)曾在微軟研究院工作,他告訴《中國新聞周刊》,現在人臉識別模型最需要質量較差的數據,比如大角度的照片、光照不好的照片、年齡跨度較大的照片等。這些公司很少再爬取社交網站上擺拍的、質量較高的照片,而是直接在生活場景中主動放置攝像頭拍攝和識別,這種無配合的數據效果最佳。
多位人臉識別從業人員都提到,在人臉識別技術上,中國之所以走在世界前列,一定程度上得益於互聯網上的大量數據以及相對寬鬆的網絡環境。在他們看來,互聯網上的照片是“主動公開的”,拿這些數據鍛煉算法“不算侵犯隱私”,公司並不會獲取除人臉外的其他個人信息。
中國科學院自動化所研究員、北京智源人工智能研究院AI倫理中心主任、國家新一代人工智能治理專委會委員曾毅認為,這種爬蟲的做法並不合理合法,“我甚至難以相信,技術公司只是單純採集照片,不拿走網站上其他的個人信息。”他解釋,在網上抓取的數據需要先整理和標註,再提供給算法訓練。標註中,一張圖可以有許多分類,比如女性、成年人、亞洲人等。曾毅指出,社交網站上有一些數據信息,比如生日、畢業院校、職業等,都可以賦予照片解釋,用來幫助數據標註。
這種做法在國外也引發了爭議。澳大利亞攝影師Georg Holzer是Flickr(圖片分享網站)的用戶,他喜歡把照片發佈在網站,並同意將照片免費共享給非營利組織和藝術家。但是,讓他意外和反感的是,巨頭公司IBM在未經他同意的情況下,拿走了他拍攝的照片,也包括網站上其他數百萬張照片,用以鍛煉人臉識別技術的準確度。
這是NBC(美國國家廣播公司)的一則報導,指出了人臉識別行業的潛規則:IBM以及數十家研究機構免費採集網上的公開照片,用以鍛煉算法,而照片中的人和攝影師並不知情,想要刪除自己的照片,更是幾乎不可能。
今年1月,美國一家面部識別軟件公司Clearview AI遭遇行業聲討。該公司發明了一款人臉識別的應用程序,使用者只需上傳一個人的照片,就能搜索出這個人在網絡上的公開照片以及網頁鏈接。更讓人驚恐的是,這個系統可以識別此人的名字、住址,曾經做過什麼事情,以及人際關係網。
系統背後,有一個超過30億張圖片組成的數據庫。Clearview AI稱,這些圖片是從Facebook、YouTube、Twitter、Instagram以及其他數百萬個網站上蒐集而來。此前1年,已經有600多家執法機構使用了Clearview的軟件。由於牽扯隱私等問題,Clearview AI公司遭到抵制。新澤西州頒布州禁令,禁止執法機構使用Clearview AI 的應用工具服務。Twitter、Google、YouTube、Facebook 等互聯網公司也對其進行封殺。
“人臉”被賣了
今年9月,李開復在一場峰會的言論,觸碰到了行業的敏感神經。李開復稱,早期他曾幫助曠視尋找到了美圖、螞蟻金服等合作夥伴,讓曠視拿到了大量的人臉數據,幫助分析各個行業怎麼切入。
螞蟻金服迅速做出回應,稱“從未提供任何人臉數據給曠視科技”,雙方過往合作僅限曠視科技授權其圖像識別算法能力給螞蟻單獨部署和使用,不涉及任何數據的共享和傳輸。曠視也緊接著在微博澄清,公司不掌握,也不會主動收集終端用戶的任何個人信息,曠視高度重視“數據隱私安全保護”問題,已在企業內部製定、實施了完善的數據隱私保護製度。當晚,李開復為此事道歉,稱這只是一次口誤。
曠視科技成立於2011年,起家於人臉識別,在計算機視覺領域與商湯科技、依圖科技、雲從科技並稱CV(計算機視覺)四小龍。這些AI創業公司,位於人臉識別產業的中游。同樣在這個賽道與之競爭的還有微軟、BAT、Google等大型互聯網公司,坐擁海量數據。人臉識別創業公司對這些數據,也具有強烈的渴望。
AI技術公司如何與客戶合作,人臉數據被誰拿走、如何存儲,受到公眾大量關注,但從來都不透明。曠視科技《Face++人工智能開放平台開發者服務協議》中就曾指出,曠視有權保存用戶的數據並用於曠視及其關聯公司內部研究的目的,“主要用來提升人臉識別的準確率、算法升級和改善我們的產品和服務等”。
7月6日,山西太原市,即將參加2020年全國高考的考生前往考點查看考場,考務人員運用“人臉識別”技術核驗考生身份。攝影/本刊記者韋亮
雲從科技相關負責人對《中國新聞周刊》解釋,公司為客戶提供服務時,不管什麼合作模式,一般情況下,數據都存儲在客戶那邊,客戶不可能願意把數據給人臉識別技術公司。“特別是銀行、公安都有內網,我們的服務器都是建在他們內網,相當於他們的私有服務器,沒有辦法外傳數據。”
北京市安理律師事務所合夥人王新銳長期關注數據安全和人工智能,在他看來,大公司不可能把數據傳給AI公司,數據是大公司的核心競爭力,“萬一AI公司把數據賣給別人怎麼辦?”
不過,早期一些人臉識別技術公司疏於對數據的保護。2015年,黃昊注意到,有一家公司的人臉數據標註是由其他公司外包的,從一個網站上就能直接看到所有數據。那次洩露只有業內人士了解,他自己也下載了一批數據,不過沒持續很長時間,漏洞得到了修復。黃昊解釋,保護數據需要成本,對於初創公司而言是不小的費用。更為重要的是,對很多公司來說,對數據過分保護,會阻礙人臉識別技術的發展。“一些公司只能從服務器上獲取數據,我想在自己的電腦上做一些可視化處理,也拿不到數據,就少了一些做分析的手段。”
被“疏漏”的數據,很多流入了人臉信息販賣的黑市。北京青年報曾報導,有商家在網絡商城兜售“人臉數據”,涵蓋2000人的肖像,每個人有50到100張照片,共計17萬條,照片的主人公不僅有明星,還有不同職業、不同年齡的普通人。此外,每張照片搭配一份數據文件,包括眼睛、耳朵、鼻子、嘴巴、眉毛等輪廓信息。商家告訴記者,這些人臉數據,一部分從搜索引擎抓取,另一部分來自境外一家軟件公司的數據庫。
更嚴重的是,隨著越來越多的人臉數據被上傳到雲端,數據洩露或違規使用的可能性大大增加,不排除運營工作人員的盜取、數據庫被黑客入侵、公司破產倒閉數據庫被倒賣等等可能。
“從數據保管環節來看,一旦收集主體未能善加保護,會導致大規模洩露的情況;即便其採取合理的保管措施,也仍然面臨被黑客侵入而洩露的危險。由於個人的生物學數據具有穩定不變性,一旦洩露,相應的風險及危害即不可逆轉,也無法有效彌補。”勞東燕認為,可以確定的是,人臉數據的洩露,所帶來的潛在的安全風險,遠比手機號與賬戶信息的洩露更為嚴重。人臉、聲音、虹膜等生物信息洩露後,沒有辦法再更改。
匹配身份後的人臉數據危害極大
中商產業研究院的一份報告顯示,據預測,2020年我國生物識別技術(含人臉識別技術)行業市場規模將突破300億元。圍繞人臉識別,已經形成了基礎層(芯片、算法、數據)、技術層(視頻人臉識別、圖片人臉識別、數據庫對比檢驗)、應用層(硬件、應用和應用方案)的完整產業鏈結構。
當下人臉識別技術的風險點,更多集中在存儲環節。近期,央視新聞報導指出,由於人臉識別應用五花八門,也沒有統一的行業標準,大量的人臉數據都被存儲在各應用運營方,或是技術提供方的中心化數據庫中。數據是否脫敏、安全是否到位、哪些用於算法訓練、哪些會被合作方分享,外界一概不知。而且,一旦服務器被入侵,高度敏感的人臉數據就會面臨洩露風險。
在曾毅看來,去年深圳深網視界科技有限公司(SenseNets,以下稱深網視界)發生的數據洩露事件集中體現了存儲端的薄弱。2019年2月,荷蘭著名安全研究員Victor Gevers發現,中國安防視覺領域的一家企業深網視界未進行安全保護,導致其數據庫在公網“裸奔”,任何人都可以訪問數據。該數據庫有超過250萬名用戶的信息,除了用戶名,還有非常詳細且敏感的信息,比如身份證號碼、身份證簽發日期、性別、家庭住址、出生日期、照片、工作單位以及過去24小時的到訪記錄等。
深網視界並非業內知名企業,但與多地公安部門長期合作。數據庫可供任何人在線訪問,這意味著有惡意的人可以隨時添加和刪除、倒賣記錄。Gevers曾給公司發送提醒,但是對方都置之不理。“很顯然,一些地方政府主要關注系統的功能,忽略了公司以及它服務的對像對信息安全的保護。”曾毅對《中國新聞周刊》說。
類似深網視界這樣的數據洩露,後果是災難性的。不少業內人士都指出,單純的個人照片不構成太大風險,但匹配了身份信息的照片,危害極大。
人臉照片與身份信息相互匹配的渠道,越來越多樣化。“第一種是通過支付軟件,上面可能本來就有了個人信息,再加上人臉信息,就能匹配;第二種是一些園區、旅遊景點,刷身份證進入,就有了數據庫;第三種是不少金融服務公司會拿客戶的信息去查詢比對權威部門的數據庫,對比完以後,有的公司會把信息儲存下來,存在洩露的可能。”有業內人士分析。
有專家提醒,不少場景或者應用軟件,要求消費者舉著身份證拍照,這是最危險的,因為既有身份證又有人臉信息,一定要盡量避免提供這樣的信息。
不少媒體都曾曝光,“照片活化”工具可將人臉照片修改為執行“眨眨眼、張張嘴、點點頭”等操作的人臉驗證視頻。匹配了身份信息的照片,經過“照片活化”後,能實名註冊市面上大多數軟件,加上驗證碼破解方式,不法分子在辦理網貸、精準詐騙等方面幾乎毫無障礙。
2019年1月,四川省公安機關網安部門打掉一個使用軟件製作動態人臉圖片,破解人臉識別系統,盜竊支付寶資金的犯罪團伙,抓獲犯罪嫌疑人8名,查獲公民個人信息數據3000餘萬條。
2019年8月,深圳市龍崗警方抓獲一個人臉識別認證黑產團隊。據報導,一位市民在某機構網站辦理業務時,發現自己早已是網站註冊用戶,而註冊這個網站,必須輸入姓名、身份證號、手機號、驗證碼,並且要進行人臉識別認證才可以註冊。警方破獲案件後了解到,黑產團伙的做法是,在黑市購買“姓名+身份證號+頭像照片”的資料,然後利用軟件,對照片進行調色、3D建模、渲染,讓照片活化,此時,照片便可以做出張嘴、搖頭、眨眼等驗證指定動作。團伙把事先做好的視頻保存在經過特殊處理的手機上,驗證時,手機會直接彈出“選擇媒體”的模塊,而不是打開攝像頭。打開事先準備好的視頻,該團伙便能順利通過認證,註冊該網站的會員。
王斌(化名)曾在騰訊優圖實驗室做人臉識別的活體檢測工作,他告訴《中國新聞周刊》,2017年,他就曾見過上述操作的黑產攻擊用戶的其他系統,獲取重要資產,當時技術騙過了算法,但是幸好被後續的人工審核查了出來。“人眼可以輕易判斷這是個假人,但讓當時的活體檢測技術識別這種攻擊,仍有一定難度。”王斌說。
“谷歌已經明確拒絕將人臉與身份進行匹配,擔心因此遭到濫用。其他科技公司似乎沒有那麼堅決。亞馬遜和微軟都在使用雲計算服務提供人臉識別,而Facebook也將其列為核心計劃。”《經濟學人》雜誌在2017年的一篇文章中指出。
有專家指出,“人臉識別應用主要存在技術風險(包括誤識率風險、歧視風險以及技術對抗漏洞)、濫用風險以及信息風險,繼而導致'錢、安全'等各方面的風險隨著人臉識別應用的普遍化而增長。”
被濫用的技術
早在2017年,前美國中央情報局技術分析員斯諾登就曾經預言:以手機解鎖為代表的人臉應用出現,會讓人臉掃描正常化,也會讓人臉識別終將被濫用。
如今,預言已經成為現實。2017年,蘋果推出支持人臉識別解鎖的新款手機iPhone X,同年,支付寶、京東、蘇寧也都先後開啟刷臉支付功能。人臉識別的消費級應用場景開始不斷延伸。
“由於未作任何限定,隨著人臉識別技術應用場景的大肆擴張,濫用與歧視的現象必將不可避免。當下常見的應用場景,除了安保、門禁、支付與認證等之外,人臉識別技術也被廣泛用於商場流量統計、社區管理、養老金領取、辦稅認證、物品保存、景區出入與演出場所的檢票等。它甚至還進一步被推廣用於教學過程,以監控與管理學生的課堂行為。”勞東燕撰文寫道。
教育是人臉識別的“重災區”。不少教育科技公司都推出過類似曠視的監控功能,聲稱可以分析學生在課堂上的行為,並對異常行為實時反饋。除了課堂以外,高校所謂的“智能校門”,教室門及宿舍的出入也都在加裝人臉識別系統。《2019年中國智慧教育行業市場發展及趨勢研究報告》數據顯示,2018年智慧教育的市場規模超過5000億元。眾多AI技術公司、教育場景公司加入紅利的爭奪中。
小區引入人臉識別門禁系統,在今年也引發越來越多的爭議。近四五年來,國內不少小區都開始引入人臉識別做門禁。2017年,一家技術公司廈門雲脈曾宣傳,“人臉識別門禁正逐漸成為國內'智慧小區'標配,傳統小區的開發模式已逐漸被顛覆。”
但是,作為法學教授,勞東燕本能地意識到其中的法律漏洞和安全隱患。“我們上傳的人臉數據怎麼保存,如何使用?”街道辦主任說,數據使用局域網存儲,也可以保存在政府部門的數據庫,這個回答依舊讓勞東燕摸不清頭腦。她對《中國新聞周刊》說,假如由物業保管,此後物業如果沒有動力投入安保,數據就有安全隱患。她經常接觸信息洩露的法律案件,一些房地產公司、物業將個人詳細的地址、聯繫方式等洩露出去,只要其中有利益,就難以防範。
勞東燕從多方了解到,小區安裝人臉識別門禁,並非物業的主意,而是街道辦的“規劃”。2017年,北京有12家小區入選首批智慧小區示範工程建設單位,人臉識別門禁便是標配。不僅北京,作為“智慧城市”、“智慧社區”、“舊改”、“雪亮工程”中的一個重要係統,集人臉識別、門禁控制於一體的智能門禁閘機,正在滲透中國許多省市的社區。
北京太川科技有限公司的一位銷售人員告訴《中國新聞周刊》,去年年底開始,找他們安裝人臉識別門禁的小區多了起來。據他介紹,“石景山區30個社區300台雲對講門口機、西城區舊改23個社區的樓宇智能化系統改造、昌平迴龍觀街道5個社區智慧化改造,以及通州的雪亮工程等”,使用的都是該公司的產品。這些項目多是對方主動找上門合作,一些街道辦有相應的補貼政策。
在勞東燕看來,政府部門有需求,公司要搶占市場,二者“合謀”,讓存在大量風險隱患的人臉識別應用“遍地開花”。“從政府角度,人臉識別不失為便捷的技術工具,為安全需要,盡可能做出嚴密的防控。在資本的維度,從事研發推廣的企業,接近瘋狂地拓展業務,是為了盡快提升自身的市場估值與利潤。不得不說,正是二者的親密合作,人臉識別技術跑馬圈地,得以像洪水一樣勢不可擋。”
面對越來越多的人臉識別“入侵”生活,勞東燕一直站出來抗爭。2019年10月29日,北京市軌道交通指揮中心主任戰明輝在一個論壇上透露,北京將應用人臉識別技術實現乘客分類安檢,安檢人員據此對應採取不同的安檢措施。兩天后,勞東燕便發表文章《地鐵使用人臉識別的法律隱憂》,堅決反對這樣的做法。目前,北京地鐵引入人臉識別技術的計劃被暫時擱淺。
“由於對如何收集、保存、傳輸、使用與處理數據,以及是否允許出售或提供給第三方,能否放在網上等,現行法律並未做任何的介入,這就使得應用場景的大肆擴張可能引發的風險,也呈幾何倍數地增長。”勞東燕直言,這不只是細思極恐,根本就是不敢想像。
人臉,承載了重要的個人身份信息。技術的發展,則讓人臉成為了辨別個人身份的“重要數據”。目前,人臉識別無疑是人工智能浪潮中最火熱的、被廣泛應用的技術之一,為生活出行、社會治安等提供了巨大便利。
文章定位: