資料不沉海 爬蟲程式賦予資料新生命

在「雲端」科技之後,近年「大數據(Big Data)」發展成一個震天價響的口號,各行各業對於投入大數據應用的研究開發是躍躍欲試,不願意放棄任何一條可能開挖到金礦的山路,即便只是一條溪徑,各產業也願意捲起衣褲放手一搏,只為了發現有黃金比喻的數據資料。
1Web Crawler圖片來源:bigsonata.com
資料的蒐集是利用在網路上爬行並截取所需要的資料,這是條漫漫長路。過去的資料結構較簡易、呈現的方式大致上以HTML或是Server-side Scripts為主,因此過去在進行資料蒐集作業時,是較為容易的;現今多利用Flash、AJAX等工具進行網站的建置,資料的結構也愈趨複雜,相對的也提升了蒐集資料的困難度。
為進行蒐集資料,首先必須先因應不同的網站而寫出不同的爬文程式,而任何的程式語言都可以作為爬文程式撰寫的工具。元智大學大數據中心的社群媒體資料分析研究團隊í表示,善用程式語言或是Open Source的函式(Library)可以提升程式撰寫的效率。然而,在進行程式語言的挑選時,爬行難易度以及爬行結果剖析準確度就為工具選擇的首要考量因素;再者,即考量程式語言的函式庫、套件(Package)等的多元性;最後,個人的喜好當然也是工具選擇的重要考量之一。
社群媒體資料分析研究團隊表示,目前團隊使用的工具之一是Python,而選擇Python的原因是因為Python提供較為便利的程式撰寫環境,並且提供專門針對支援爬蟲程式的套件;以上,相對於其它的程式語言而言,Python最大的優點即是實用性高、彈性大,面對不同的網站可以迅速的進行反應。一體兩面地,有優點固然有其缺點,Python在處理速度方面,相對於JAVA而言,是略遜一籌的;但該團隊表示,以當前的研究分析目的而言,這並不影響團隊在進行資料蒐集、處理的速度。現在,我們生活於一個資訊大爆炸的時代,搜尋引擎龍頭Google或其他營利或非營利團體皆會使用爬蟲程式進行網站資料的蒐集;而社群媒體分析研究團隊表示,在使用爬蟲程式進行爬蟲時,必須要特別注意的即是「禮貌」,使用者必須注意爬行頻率是否適當,如果爬行頻率過高,除了可能造成網站的困擾,爬蟲程式亦可能遭到網站封鎖。因此,爬行頻率也可謂為該領域的網路禮儀。
       圖2:促銷活動討論度分析。         圖3:品牌關鍵字強度分析。
圖4:品牌形象分析
現在許多使用者在購買產品前會先從網路上蒐集資料、藉由網民在各評論網站或社群網站上所分享的資訊或評價來決定購買意願;現下社群網站當道,無一企業不重視網路社群口碑的影響力,並著手展開創新的商業模式;然而,為更精確的掌握客戶的想法和需求,企業藉由海量資料進行大數據分析,無形的口碑也神奇的被量化了。目前社群媒體分析研究團隊是與國內某知名汽車廠商合作,主要已經完成Mobile01Facebook以及PPT等網站的爬蟲程式,再利用潛藏語意分析(latent semantic analysis)與獨立成份分析(independent component analysis)的自動偵測技術,為繁雜的評論進行情感標籤。
就此合作案例而言,該團隊藉由資料的蒐集、探勘並進行大數據分析以得出品牌的強、弱、危、機;而汽車廠商亦藉由該團隊所提出的分析和消費者產生了連結、互動,也因此更了解社群世界對各汽車品牌的觀感,並運用分析結果制訂出更有效的策略方案,在這波新興的社群經濟下,勢必會為企業以及消費者締造出雙贏的未來。
社群媒體資料分析研究團隊的研究特色在於透過發展資料分析核心技術,減少人力的負擔。主要成果í如下:
避免傳統文件情感分類需要人工準備大量訓練資料的人力耗損
提出使用Semi-supervised learningDA-SC技術來完成,僅需準備少量(14) domain-independent opinion lexicons,便可達到與傳統做法的分類效能 (請參閱圖5)

圖5:A domain-adapted sentiment classification approach
自動找出「情感標籤」的技術
傳統單獨使用Latent Semantic Analysis僅能找出latent features,單獨使用Independent Component Analysis僅能找出independent features。本研究發展出結合兩者的作法(請參閱圖6),不但能找出latent features,也能降低feature overlap。此外,本研究也發展出透過visualization選取features的工具(請參閱圖7)
圖6:A hybrid approach of LSA and ICA sentiment classification approach。
圖7:Visualized Feature Selection Tool。
新的Social Network Analysis metric來偵測網拍詐欺用戶
傳統用於偵測網拍詐欺用戶的Social Network Analysis metrick-corecenter weight常無法同時達到好的precision recall。本研究透過分析與詐欺用戶交易之用戶的特性,提出neighbor diversity來改善precision recall

綜觀而言,大數據和社群是密不可分,目前行動上網的普及率以及社群網站的熱門程度是以正向趨勢在延燒著;同時,拜社群網站所賜,民眾也愈能快速、便利的將自己的意見表達在網路上,無形的豐富了「數據」,
圖8:社群媒體傾向分析。
Big Data」也就因應而生。社群媒體分析研究團隊表示,Google Trends利用分析「網站流量」、「關鍵字」對使用者的「搜尋」來預測人類未來的活動趨勢,而Google Flu Trends就是一個非常知名的應用,從搜尋的關鍵字去預測流感的發生,簡而言之,當大家都開始討論同一件事情時,就表示著有一件事即將爆發。而就應用面來看,從資料擷取時就必須網羅組織內、外部資料;所謂的組織內資料是以有意的形式去進行蒐集並控管;而組織外資料即是我們俗稱的社群資料。該團隊表示,若僅以由公司內部所蒐集到的資料進行分析,其周延性及準確性是有所欠缺的;就現今普羅大眾而言,大多數使用者皆是以社群網站作為發表言論、想法的主要管道,然而,這些社群資料主要即是用來突破過去的侷限,讓企業更能全面性掌握消費者的心聲以利提供後續更優質的服務以及準確地提升產品品質。





í 團隊成員:林志麟教授、禹良治教授、楊錦生教授、李怡慧教授、李婷教授、袁鳳清教授

í 文獻參閱:
楊錦生、陳正雄、張百棧 (2014) . Harnessing consumer reviews for marketing intelligence: a domain-adapted sentiment classification approach.  文獻連結 
林志麟、Laksamee Khomnotai (2014) . Using Neighbor Diversity to Detect Fraudsters in Online Auctions.  文獻連結

InnoBic「2015 匯流大法的想像與走向」論壇

元智大學(以下稱本校)大數據與數位匯流創新中心於20141219日上午假集思台大會議中心蘇格拉底廳舉辦「2015匯流大法的想像與走向」論壇,廣邀產官學界討論數位匯流政策,會中針對鼓勵競爭與解除管制以及匯流法修法架構有相當熱烈的討論,藉由開放此交流平台,希望政府政策能有所改進。自2013年底迄今,國家通訊傳播委員會(以下稱通傳會或NCC)為進行匯流大法的修正或制定,已公告多項公眾意見徵詢文件,並陸續舉辦多場公聽會或說明會讓各界人士表達意見。然而,匯流大法內容的形成與意見的彙整並不容易,為此,本校特舉辦本次論壇,廣邀通傳會委員與專家學者一同探討匯流法的競爭意涵與未來的修法架構,會中與談人皆同意市場競爭的重要性,而匯流大法的修法方向則可採取小規模方式逐步前進。
本校張進福校長於開幕致詞時表示,匯流大法談了這麼多年,可見並不容易,或許可從小處去突破,至少能夠
元智大學張進福校長致詞
有點成就感。張校長提供都市更新的想法,將廣電三法與電信法比擬為舊房子,考量是否先局部修改隔間,讓功能稍微好一點,特別是當住戶之間有很多意見的時候。在擇要處理的過程中,其實就會有許多的變化發生。在這個談話平台上,逐漸匯集大家的共識以後,或許可提供政府在施政上面的參考。
本場論壇分為兩個場次。第一場次主題是「鼓勵競爭與解除管制的再省思」,主持人為電信技術中心李大嵩董事長,受邀與談人包括通傳會虞孝成副主任委員、通傳會翁柏宗委員、台灣經濟研究院劉柏立所長、中央研究院劉孔中教授,以及本校周韻采教授,分別就主題提出一些省思的想法。與談者因各自對競爭與管制有不同面向的解讀,同時也引發在場來賓的回應。本場次與談人皆同意市場競爭是面對新興服務的最好方式,特別是如何讓既有產業解除束縛、讓新興服務發揮力量,充分的溝通與對話必不可缺。
身為管制機關的通傳會,與談人虞副主委強調我們不能指望一部法典訂立之後,產業就會在最恰當的競爭情況
第一場次參與人合影。左起劉柏立所長、翁柏宗委員、
彭芸教授、張進福校長、虞孝成副主委、周韻采教授、
劉孔中教授、李大嵩董事長
之下,必須要視情況去做調整,但不是調整法律,而是要「調整執行」;因此法律若要訂得好必須要有執行空間,好讓執行者依當時的產業狀況來調整管制的手段,進而達到最終的理想。翁柏宗委員也提到面對跨業甚至跨境服務,管制思維也必須進行調整,也就是從傳統的垂直監理思維改變成鼓勵競爭,特別是從消費者端來看,消費者所關心的即是「安全」與「快速」的網路,翁委員認為要解除管制以促進競爭有四大面向:第一,維持網路跟市場的開放性;第二,關注整個市場以及網路的變化;第三,數位化與IP化的融合;第四,促進頻譜資源的有效運用。
劉柏立所長認為,通訊傳播的發展中「訊務量」是最核心的價值,而訊務量的擴大有三項意義:第一是呈現寬頻網路的層級;第二,各類數位匯流服務得以加速實現;第三,訊務量擴大意味者有機會強化我國於國際上的競爭優勢。劉孔中教授則對於鼓勵競爭,強調有線電視這塊必須再加強。目前廣電三法並不是一個有效的法律手段,而管制機關的管制手段也不是太多,或許與其他政府機關(例如公平會)進行分工協調,並且嘗試單點突破的修法方式可能是比較有可能的方式。周韻采教授則觀察到目前固網語音衰退得很可怕,市場的無情呼應今天論壇的修法主題,不管是OTT、跨平台競爭或是要把一些東西入法,但這對明天的通訊傳播產業有何幫助,倘若明天產業已經走到以OTT為主,可以思考是否在基礎網路管理上給予NCC這麼強的權限。會場來賓前中華電信呂學錦董事長則呼籲通傳會,目前OTT對匯流事業的定義產生重大衝擊,市場如何界定將考驗著主管機關的智慧。
第二場次主題是「匯流大法修法架構之探討」,主持人為本校彭芸教授,與談人包括通傳會彭心儀委員、政治
第二場次主持人彭芸教授
大學劉幼琍教授、中原大學江耀國教授、本校葉志良教授,以及太穎國際法律事務所謝穎青律師。延續前一場的討論熱度,本場次重心則放在「匯流大法」架構的形成及其問題。彭心儀委員對近來公眾諮詢的做法認為,
不管從OECDAPEC在管制前的資訊透明及徵詢角度,已是一個最先進國家的作法,透明程度遠超過行政程序法的要求,特別是從通傳會角度認為廣電三法的修法徵詢要比電信法來得迫切,雖然內容還有改進的空間,但體認到在手腳都打不通的情況下,如何去練絕世武功,因此單項修法能過比不過好。

對於匯流大法,劉幼琍教授則提供大家三種立法模式的想像:美國Silo的模式、歐盟的水平模式,和日本的基幹與一般的放送法模式。不過,傳統Silo與水平管制架構都產生一些問題,我們的匯流大法該採何種模式,值得進一步思考。江耀國教授則以完全水平立法的馬來西亞通訊及多媒體法(CMA)作為
第二場次參與人合影。左起謝穎青律師、劉幼琍教授、
彭心儀委員、賴國華院長、彭芸教授、江耀國教授、
葉志良教授。
我國匯流法的檢討對照組。由於馬國原先的廣電與電信法規是凌亂與分散的,各自有31個不同的執照,CMA法對馬國本身可能有所幫助,但就服務而言,某種程度仍無可避免存在著垂直的分別。本校葉志良教授則觀察通傳會「納管事業的定義、分類與參進」諮詢文件,認為如何規範一個「匯流事業」,其市場界定有其重大意涵,尤其在網路IP化之後,許多現下的產業或服務均與傳統產業架構有所不同。另外,是否要用法律來規管網路中立,其實要看市場的競爭程度,以及目前台灣所面臨的IP Peering的問題。謝穎青律師則提出匯流法有如國王新衣的看法,其中關於頻譜、路權、號碼等資源部分,如何提升到法律層次,增加其可預測性,這樣比較能清楚知道國王赤裸的身體需要什麼。錢脈部分則指出電信收益來源看的是流量,而流量所重視的是其加值性服務,這些服務均與個人資料結合在一起。最後,他認為市場就是一種合作模式,包含監管機構的國際合作以及業者合作。

InnoBic時論

數位匯流大法 忘了消費者                                           
隨著雲端科技發展,數位匯流成為全球趨勢,資訊、電信、網際網路、廣播電視等部門,從傳統的「獨自經營」逐漸轉向當前的「跨界經營」,使得NCC必須在基礎設施、營運管理與內容應用三層次,建立全新管制架構,數位匯流大法就是其中產物。然而,這部劃時代的重大法典,在各個利益相關團體遊說下,始終徘徊在十字路口,毫無進展,未來該怎麼走?有很多想像空間。
立法是政治藝術,而非立法技術,基此,主政者必須以簡單易懂方式向立委說明,何以需要制訂這個法?重點內容為何?對於選民有影響?NCC或許可以製作化繁為簡的「懶人包」,在短短五分鐘內,讓立委諸公了解為什麼非要制訂這部曠世法典不可?
然而,根據筆者多次參加類似座談會的經驗,很多政府官員,一開口就是深澀難懂的「技術英語」,報告內容又索然無味、邏輯不清,難怪有高達八成的民眾,完全不知道什麼是數位匯流?更遑論立法諸公?
立法途徑不外有兩種:一是採取「一步到位」方式,希望能夠畢其功於一役,制訂出一部無所不包的完美法典,數位匯流大法就是採取這種模式;另一則是採取「先求有,再求好」的漸進立法方式,先求重點突破,然後再根據執行後的問題進行修補。
在藍綠壁壘分明的國會中,選後者最穩妥,證所稅或大戶條款的教訓,還不夠清楚嗎?
NCC主導的數位匯流大法公開徵求意見書,其實是融合了許多來自四大產業部門的產業發展之利益保護與技術發展的專業管理,很少看到大眾的權益到底如何確保?
誠懇建議,將數位匯流大法視為數位消費者權益保障立法,這才是人民誠摯盼望的走向。                          
全文 ( 本文作者:本中心 丘昌泰教授。聯合報/2014-12-21 )

名家觀點-資安被迫害妄想症
民進黨立委揭露大陸視頻網站─樂視─向我國電信業者租用機房,一時間輿論大譁,有學者在報端批評這是木馬屠城記,對岸會植入病毒程式,竊取資料,危及資訊安全。另外,學者甚至言及對岸利用視頻放送內容,入島入戶洗腦,等於是對台灣人民統戰。
首先,視頻網站屬隨選視訊(video on demand),觀眾可憑喜好自由選取影片觀看,非如傳統廣播電視,觀眾祗能被動接收。亦即,就算對岸真想利用視頻網站統戰台灣觀眾,那也是觀眾自由意願下的選擇。事實上,去年的太陽花學運亦證明了,觀看大陸視頻網站跟國家認同無關。殊不知,年輕人不看大陸視頻網站者幾希矣,但年輕人中認同中國的比例最低。如果論者真覺得台灣觀眾不應觀看大陸視頻網站,那也應該經由民意辯論,最終由立法院決議甚或立法,禁止民眾接取大陸視頻網站。然而,這樣一來,台灣竟成了管制言論的國家,牴觸了憲法賦予人民的言論自由,又與大陸的綠壩何異?
其次,內容業者租用機房乃購買一暫時儲存空間,供流量中停,毋須直達其位於遠端的伺服器。這樣做的好處是業者不因傳輸距離而減損服務品質。一般而言,內容業者需付費給傳輸業者確保連線品質,但因台灣民眾主要接取的內容網站皆在境外,如美國的googleappleAmazon及大陸的視頻網站,連外需求大於連入,故台灣電信業者反需付他國電信業者傳輸費用(亦即transit),才能維持接取境外內容網站的連線品質。就此而言,樂視在台灣租用機房等於是幫台灣電信業者節省付給大陸電信業者的頻寬費用,同時增加台灣電信業者的收入。這是台灣的消費者和電信業者皆為雙贏的商業行為,何樂而不為呢?
民進黨立委及學者所言資安問題,應是危言聳聽。(租用)機房共置屬第二類電信業務,機房運作仍由電信業者管理,況目前NCC已禁止陸籍人士進入機房,倘尚有資安問題,那也應課責電信業者,由主管機關NCC處分之。以上說明可見,樂視租用機房是假議題,不過是民進黨立委逢中必反合理化藉口,汙名化即使對台灣消費者與電信業者皆有好處的商業機制而惟恐不及。
民進黨反對民眾觀看大陸視頻網站須站在更堅實的論述上。由於大陸尚未徹底實施智慧財產權的保護措施,侵犯智財權行為也未如台灣般以刑法起訴,故絕大多數大陸視頻網站的內容皆為盜版,少數如優酷、土豆及樂視因考慮公開發行,才大舉購買版權或自製節目。為保護智慧財產權及符合台灣現行著作權法之規範,民進黨立委應戮力通過著作權法修正案,賦予傳輸業者對經公告確認為侵害智財權之網站可採阻斷措施,即國際間通用的notice and take down,才是正辦。                                                                                                          
 全文 ( 本文作者:本中心 周韻采教授。中時電子報/2015-01-05 )
名家觀點-挖掘開放資料黃金
日前行政院副院長張善政和Open Data聯盟等多個民間社團進行座談,討論如何讓政府手中的大量資料更加開放活化;這是繼美國歐巴馬政府開放137303資料庫,讓全球各界有興趣的人士運用後,我國跟上國際腳步的前瞻性作法,值得肯定。

但學術界都很清楚:目前政府資料庫雖然多達3415個,但那些能夠公開應用的資料庫,大都沒有深入分析與應用的價值,以行政院主計總處所負責的《中華民國統計資訊網》而言,係以「全國」或「縣市」為編列單元,樣本數過少,太過粗糙,無法進行地域的差異性比較,只須運用簡單的描述統計分析就挖完了礦脈,根本不需要用到巨量資料等高級分析技術,也難以奢望能夠從政府開放資料中挖到黃金。目前政府的資料庫,無論在品質和數量都嚴重不足。
台灣需要建置完整的永續發展資料庫,去年5月間,聯合國潘基文祕書長推動一項名為聯合國全球脈動計畫,該計畫最重要的任務是發起大數據應對氣候挑戰,期盼號召全球一流的科學家與專家充分運用大數據資料,為全球氣候變遷的因應措施,研議出以資料為驅動力的證據,建立大眾對於使用大數據資料能夠改善地球環境產生十足的信心。
台灣氣候變遷問題日趨嚴重,學術界亟需運用長時期的、細膩的調查、統計或研究資料庫進行綜合性的研判,以研擬因應的對策。
台灣少子化、高齡化與低薪化問題嚴重,政府也吃了不少苦頭,這些問題到底出現於哪些家庭?哪些地方?哪些特徵的族群?政府若擁有細膩、大量的調查資料,透過學術界的協助,當可挖掘出有用的資訊,制訂出有感的人口與就業政策。學術界不同於企業界,要求政府開放資料純粹是基於學術興趣與知識分子的使命,不是為了牟取「開放資料的商機」,政府應以開放胸襟正面看待學術界的呼籲。                                                   
 全文 ( 本文作者:本中心 丘昌泰教授。中時電子報/2015-01-21 )
大數據治理 先救垂死官網
近來,毛內閣施政提出「換腦袋計畫」,宣示師法歐美經驗,將大數據、資料開放等概念落實於公共政策的制訂上。聯合報二十二日社論亦呼籲毛內閣應拿出科學態度落實「數據治理」。
近來美國白宮科技政策辦公室公布有關大數據與開放資料計畫,說明了政府必須制訂「證據導向」的公共政策,以提升決策品質與效率。據麥肯錫公司報告,大數據為歐盟廿三國的政府降低十五至廿%的決策成本,政府效率預估提高零點五%。美國郵政總署運用大數據庫中四億筆資料進行比對,平均每五十至一百毫秒就掃瞄出一封「郵資詐欺案」,可見政府企圖打大數據治理的「組合拳」,幾與歐美同步,方向正確。
落實大數據治理的關鍵,在於政府蒐集與累積資料的功夫。如今每位公務員日日忙於瑣碎的公務處理,與「等因奉此」的公文旅行,根本沒有獲取與累積細膩資料的思維與習慣。以最近發生的桃園火災事故而言,政府領導者不應只是「雪中送碳」,而應去積極思考,如何透過類似個案資料庫分析,研擬預防對策,以防止悲劇一再發生。
消防業務,至今已經逾數十年了,每次火災鑑定委員會,若能認真建置火災案件數據庫,釐清起火原因,研擬有效對策,當可以降低生命與財產之損失。
其他如地方政府首長喜歡舉辦大型節慶活動,但到底產生多少社會與經濟效益?多年來完全沒有任何客觀數據,幾乎都以「喊價」方式誇大參與人次與產值,這樣的證據力如何作為評估是否續辦或補助的決策依據?
政府蒐集資料的方式很多,不僅是前述的個案資料,官方網站或APP軟體,就是蒐集大數據的重要資料來源,但由於網站設計未能針對消費者的需求、用語艱澀難懂、內容乏味、網站龜速、資料未適時更新等,導致出現許多乏人問津的「垂死網站」,上網人次少的可憐,完全無法達到網站傳播效果,政府應該要好好體檢這些網站。
事實上,民間以一點點經費就創造很多活躍的網站,建議毛內閣上網觀看一位平凡女孩設計的「《病後人生—一站式服務網》」,網站上的業務原本都是政府應該要做的事情,如今竟讓這位女孩搞活了,公務員能不感到羞愧嗎?
二○一三年社會指標統計顯示,個人連網普及率高達七十五%,經常上網比率也多達四十七點四%,台灣有如此高比例的上網人口,到底又有多少人會光顧政府官方網站,或下載官方的APP?先活化垂死網站,才能進行大數據治理。                                                                                                                                        
全文 ( 本文作者:本中心 丘昌泰教授。聯合報/2015-01-24 )
還有比應付「婉君」更棘手的事
為改善政府與「婉君」及媒體互動,行政院各部會首長參與「網路特訓」, 期望能縮短政府政策與網軍之間的鴻溝。網路化與雲端化的大趨勢,不僅衝擊政府與人民間的互動,還有更棘手的問題是:未來的政府應如何建立業者間、業者與顧客間的有效遊戲規則?月前全球著名的優步(Uber)公司,以行動應用程式連結乘客和司機提供租車及實時共乘的服務,乘客可以透過傳送簡訊或使用APP程式預約車輛,還可以追蹤車輛的位置;政府目前的出租車管理規則都是老掉牙的管理方式,試問如何妥善因應?再以海峽兩岸頗為活躍的微信(wechat)為例,去年由上海脈田網路科技有限公司研發,與上海強生計程車公司進行合作,成為中國最大的微信叫車平台,導致傳統的出租業者幾乎找不到客人,而乘客若不懂使用微信,根本叫不到車,造成各界困擾。
現代年輕人幾乎都不在客廳看影視,他們利用手機在任何地點看電視、電影、新聞、聽音樂等,這個社會已經出現甚多的OTT新興視訊媒體與網際網路平台,他們運用跨國的伺服器平台從事商業活動與行為,但通訊傳播委員會主導、號稱跨時代的《數位匯流大法》卻仍然停留在有線、無線電視、廣播等傳統視訊媒體上,並未將OTT視訊業者納入該法中,早已變成「舊大法」了。
政府如何有效治理這些新興視訊媒體及網際網路平台,現在年青人流行網路創業,若以網際網路位址為服務場所,《商業登記法》所規範的地址如何認定?政府很早就公布的《網路交易課徵營業稅及所得稅規範》,該如何核實課徵?如今網路犯罪如此猖獗,若網路犯罪主體的伺服器設置在國外,國內業者只是運用該平台架設犯罪網站,並不是元凶,政府又該如何運用網路科技捉出禍首,以實現鄉民正義?
現代社會變化太過,特別是雲端科技的發展衝擊著各行各業,連大學教師這份行業,未來將將陸續被網路上的免費課堂所取代?毛揆曾任交通部長應該深知交通主管機關的腦袋要儘速更換,若不儘速建立遊戲規則,未來將造成公共治理上的極大問題。                                                                                                                  
                           全文 本文作者:本中心 丘昌泰教授。蘋果即時論壇/2015-01-26) 



大數據領航員

大數據與人道援助 - 群眾標記(crowdmapping)應用
這幾年雲端技術、大數據應用的蓬勃發展,早已深入每一個人日常生活中,更不用說在各個商業領域的前端應用,如本校元智大學積極透過大數據技術應用於政府、產業、學術領域,含括法規政策、新創服務、基礎通訊、生醫資訊、智慧製造、零售通路、交通運輸與物流管理、智慧電網各種領域,正是呼應了麥肯錫公司(McKinsey&Company)2011年發表的”Big data: The next frontier for innovation, competition, and productivity”報告中提出的大數據應用龐大商機,如對於歐洲公共部門管理貢獻高達兩千五百億歐元的年產值,對美國醫療產業則有高達三千億美元年產值,對於零售業可高達60%的潛在利潤成長。然而在這樣全球火熱且全面關注的議題中,卻鮮少有人意識到,大數據也同時悄悄的應用到人道援助、國際合作領域中。
每當我們撥出一通電話、購買某個商品、使用社群媒體,甚至僅僅打開網頁瀏覽,都在不知不覺中產生大量資訊,加上自動化感測裝置的連續資料,無論是從政府單位或是私人企業產生儲存,這些無數的大數據資訊源與其交互組合可解釋的問題幾乎可以涵蓋各種議題,而當今的人道援助、國際合作機構,便是企圖利用各種大數據資訊或雲端計算科技,解決當下所面臨的問題,給予目標族群(vulnerable communities)更快速、有效的援助服務。
政府軍隊進行武力鎮壓
( 圖片來源:Evelyn Hockstein , The New York Times)

然而對於這樣的大數據、雲端服務應用,其實並不是近幾年大數據技術流行才有的,早在2007年,位於東非的肯亞(Kenya)共和國因為俱爭議總統大選後的全國性暴動,種族對立衝突造成超過一千三百人喪生與三十五萬人被迫離開家園躲避內亂。
而在肯亞內亂當時,一群當地程式設計師與網路團體開發出名為Ushahidi計畫,Ushahidi為肯亞當地Swahili語言的證言(testimony)之意,Ushahidi計畫發展出一個網路平台,使用者可以透過手機簡訊(SMSShort Message Service)或網站進行暴力事件通報,隨後Ushahidi平台利用Google map進行地理位置標定,藉此跳脫國內媒體受控制或失去機能的狀態,直接由人民發聲向國際尋求援助,也因為
肯亞國內kikuyu族群民眾抗爭。
(圖片來源 : Evelyn Hockstein, The New York Times)
Ushahidi的通報與傳播,國際組織得以快速動員進行人道援助救援與物資提供。2008年後Ushahida計畫也擴展為國際人道援助平台,企圖提供全球進行事件通報與群眾標記(crowdmapping),並運用於諸多國家,如美國亞特蘭大(Atlanta)犯罪事件追蹤、印度(Republic of India)與墨西哥(United Mexican States)選舉結果的提報追蹤,甚至是2010年海地(Republic of Haiti)大地震與2011年日本東北大地震(2011 T
ōhoku earthquake and tsunami)的事件追蹤標記。

同樣針對急難應用與災害救援事件,Google藉由其所擁有的計算資源,結合其自家Google App Engine分散計算引擎與儲存架構,以及Picasa 影像平台,於2010年時針對中美洲海地地震提出了Google Person Finder服務,針對災區進行災民尋找與通報服務,該服務後續亦提供之後2010智利(Chile)大地震、2011年日本東北大地震,甚至是去年(2013)於菲律賓造成嚴重災情的海燕颱風等災害救援,而Google Person Finder2011年日本東北大地震期間曾創下高達六十萬姓名資訊紀錄的規模,堪為短時間內人道援助資訊蒐集彙整之成功案例。
2011年日本東北大地震Ushahidi應用(圖片來源:livedoor news)

此外針對急難應用與災害救援事件,Google藉由其所擁有的計算資源,結合其自家Google App Engine分散計算引擎與儲存架構,以及Picasa 影像平台,於2010年時針對中美洲海地地震提出了Google Person Finder服務,針對災區進行災民尋找與通報服務,該服務後續亦提供之後2010智利(Chile)大地震、2011年日本東北大地震,甚至是去年(2013)於菲律賓造成嚴重災情的海燕颱風等災害救援,而Google Person Finder2011年日本東北大地震期間曾創下高達六十萬姓名資訊紀錄的規模,堪為短時間內人道援助資訊蒐集彙整之成功案例。同樣針對急難應用與災害救援事件,Google藉由其所擁有的計算資源,結合其自家Google App Engine分散計算引擎與儲存架構,以及Picasa 影像平台,於2010年時針對中美洲海地地震提出了Google Person Finder服務,針對災區進行災民尋找與通報服務,該服務後續亦提供之後2010智利(Chile)大地震、2011年日本東北大地震,甚至是去年(2013)於菲律賓造成嚴重災情的海燕颱風等災害救援,
Ushahidi 平台介面
( 圖片來源: Jim Craner ,
Advancing Your Mission With GIS Tools )
Google Person Finder2011年日本東北大地震期間曾創下高達六十萬姓名資訊紀錄的規模,堪為短時間內人道援助資訊蒐集彙整之成功案例。同樣針對急難應用與災害救援事件,Google藉由其所擁有的計算資源,結合其自家Google App Engine分散計算引擎與儲存架構,以及Picasa 影像平台,於2010年時針對中美洲海地地震提出了Google Person Finder服務,針對災區進行災民尋找與通報服務,該服務後續亦提供之後2010智利(Chile)大地震、2011年日本東北大地震,甚至是去年(2013)於菲律賓造成嚴重災情的海燕颱風等災害救援,而Google Person Finder2011年日本東北大地震期間曾創下高達六十萬姓名資訊紀錄的規模,堪為短時間內人道援助資訊蒐集彙整之成功案例。


2010 海地大地震時Google推出Person Finder服務
( 圖片來源 :
Wikipedia )
同樣透過大數據群眾標記進行人道救援案例,還有哈佛醫學院Rumi學者,透過社群媒體進行對傳染疾病傳播於地理位置擴散標定的流行病學研究,該研究發表於2012American Journal of Tropical Medicine and Hygiene期刊,該作者透過自動網路媒體調查平台HealthMap,針對海地自20101020號爆發霍亂(Cholera)疫情開始100天,紀錄由網路平台HealthMapTwitter所產生之社群網路與關鍵字”Cholera”相關訊息,並透過訊息自動標定其地理位置,藉由時間推演與地理資訊標的,進一步對照海地政府公共衛生部(Ministère de la Santé Publique et de la Population, MSPP) 提供之實際通報個案數據,其結果發現網路數據的呈現與地理位置分布,符合MSPP所提供之事後通報個案資料分布與趨勢,證明透過社群媒體進行大數據資料探勘之方法,可以以低成本的方式進行傳染性疾病早期偵測,並達到快速反應與提早實施防疫策略之使用,針對醫療發展落後、醫療資訊蒐集傳遞機制不健全之國家 實為一個創新的應用。

發展中國家的公共衛生改善與發展,直接影響該國家人民的生存條件與健康條件,目前各國雖透過社群媒體大數據探勘技術企圖進行早期偵測,但如同文獻與相關報導中所提及,因為城鄉差異過大,資訊能力素養不齊,資料過度集中於高人口密度區域如首都太子港( Port-au-Prince)造成評估上的誤差與偏鄉地區的低估。
Rumi學者透過社群媒體數據所獲得之禍亂發生、擴散分布圖。
( 圖片來源  doi10.4269/ajtmh.2012.11-0597 )
2014.02
Saint-Michel-de-l'Attalaye地區霍亂爆發前之隔離病房
(圖片來源:筆者)
2014.07
筆者重返Saint-Michel-de-l'Attalaye地區,
該區正爆發霍亂疫情病患擠滿霍亂隔離病房 (因病患隱私,未拍攝內部照片)
上述之偏差狀況,由筆者近幾年數度至海地進行人道援助計畫時可得到驗證,今年七月筆者與桃園醫院國際衛生中心再度訪問海地北部Artibonite省之偏鄉Saint-Michel-de-l'Attalaye地區時,遭遇該區域爆發嚴重霍亂疫情,然而時隔2010初次爆發至今已將近三年之久,卻仍無法有效控制疫情散布,原因除了當地缺乏公共衛生工程礎建設、民眾公共衛生教育素養不足外,當地醫療機構僅使用紙本文件進行病患診斷紀錄,缺乏病患追蹤、主動式訊息通報機制,導致衛生單位無法立即獲取第一手疾病資訊以進行疫情防堵,亦是主要原因之一。因此如何導入全國醫療資訊傳遞網路,由政府端建立真正醫療大數據平台,進行即時傳染性疾病事件通報、監控、追蹤機制,才是治標治本之道。
2014.07
筆者與桃園醫院國際衛生中心於海地衛生部(MSPP)進行醫療資訊應用課程。
(圖片來源:筆者)