智慧型計算在大數據分析之應用

在資料爆炸量、多樣化以及數據更新快速的時代下,大數據分析之應用日益受到重視,在商業智慧領域也無法避免;過去所處理的數據大都是屬於結構性,亦為傳統資料庫用於協助解決商業行為的資料結構;近年來,由於數據產生的多元性,數據的產生有「4V」特性,即資料量大(Volume)、資料多樣性(Variety)、高誤差性(Veracity)、輸入和處理速度快(Velocity),尤其非結構資料(如Text, image, video等)的大量形成,強烈衝擊傳統資料庫的技術與應用;同時,因為大數據資料類別多、形成速度快,因此雲端技術的支援與資料傳輸速度的充足與否,便是其能否順利運作的重要關鍵,如訂票系統、觀看影片等,當資料都上傳至雲端時,除了有大量的資料存取空間外,頻寬也必需充足,才能讓使用者可及時下載所需資料。
但就因為數據產生越來越多、瞬間產生越來越快、樣式越來越大,而且有不正確性、雜訊等干擾因素存在,因此軟、硬體設備都需要升級,才能因應龐大且迅速產生的資料量。幸而Hadoop分散式並行處理系統的開發,讓資料在夠快的網路速度下可進行多個CPU的平行運算;此外,固態硬碟亦為大量資料儲存的重要硬體設備;換句話說,CPU的平行運算、固態硬碟、及網路速度,在大數據的資料處理上,三者缺一不可。本校張百棧教授所帶領的商業智慧團隊,其核心技術就在於處理大數據下之非結構性資料,利用智慧運算(Computational Intelligence, CI)技術,對非結構性資料進行資料探勘(Data Mining),而主要應用的領域在於股價訊號判定以及心跳資料判定,尤其是在股價訊號判定部分,該團隊可進一步利用機器學習(Machine Learning)的方式進行股價預測。

智慧型計算技術應用在病例資料之判讀

張百棧教授所帶領的團隊一直以來致力於推廣智慧型計算,並結合各領域知識(Domain Knowledge)來解決不同類型之問題,包括工廠排程問題、股市預測與醫療資訊三大領域。過去多年之研究在於結合四項智慧型計算技術:即探勘策略、()神經計算、演化式計算與自然計算,提出創新的Hybrid Model in Computational Intelligence (CI),利用SOM (Self-Organizing Maps) K-means 先將資料做分群,再將分群後的資料找出其模糊資料規則,來進行新的預測,所得到的正確率比沒有分群高出許多。這是因為分群後的資料同質性更高,從而求得之模糊資料規則也更具有代表性。此一模型也被國際上許多學者接受與引用。
該團隊亦將此一模式進行改良,並應用於醫療領域中生理訊號處理與病例辨識等問題。首先,將資料以案例式推理方法分群,之後以模糊決策樹與基因演算法,分別建立子群體之模糊規則,藉此判斷是否為肝臟疾病與乳腺癌的病例,此項研究成果已發表在著名的Applied Soft Computing期刊上。近年更發展出多導程心電圖之心臟疾病辨識,主要著重在心電訊號的處理:先將解碼後的心電訊號除去雜訊,並進行波型取樣,再以隱藏式馬可夫模型訓練方式,找出患病與健康病例之機率模型,最後結合高斯混合模型的訓練,來進行病例判讀。目前台灣已有知名醫院將患者的心電圖資訊上傳至雲端,讓醫師可以從智慧型裝置直接做判讀,但由於心電圖的判讀頗費心力,部份醫院會將這部分的工作外包,由具專業知識的全球人才進行心電圖的分析,然後再以機器學習演算法(Machine Learning )的方式進行病歷資料判讀與建立資料庫,這也就是大數據的應用。

分群技術與 TSK 模糊技術之股價指數預測

此一團隊亦運用各種軟性計算技術,建立股價指數預測之模型。其預測步驟是先將資料分群,而後運用TSK 模糊技術找出影響股價指數的重要因素,再以機器學習演算法或類神經網絡分析,進行台灣加權指數預測,並從中判定低點、高點的訊號,預測準確率達到9成以上。目前此一預測模式僅納入兩個影響因子,分別為基本面和技術面;但如政治、經濟、心理等「大環境」因素是最難控制的,因此未來可將出現在各線上新聞網站或社群媒體等之政經新聞中的文字,經處理、過濾後轉換成影響股價波動的情感訊號,準確率將可望再提高,有助於降低投資風險,並提高投資報酬。

個股股價轉折點及利潤賺取預測


圖一、方法流程圖
         此一團隊另一項股市預測技術,在於個別股價投資時點之研究。先將所欲投資的個股,其近半年至一年來的股價波動訊號,從非線性轉成線性後,在高、低點時之相關技術面指標如KDRSI、成交量等作為輸入變數(input),並將股價轉化為交易訊號(Trading signal)以作為輸出變數(output),進而從中找出具代表性的變數;之後再將篩選出的因子,輸入類神經網路中訓練,也就是Machine Learning,進而預測股價之高、低點轉折處。此部份可說是股價指數預測部份之延伸,由於已可成功預測股價指數,因此進一步探討如何在股票市場中賺取利潤便相當重要,預測出個股價格轉折點(Turning Point),便可讓投資者能逢低買進、逢高賣出,提升投資報酬率;此部份之技術基礎在於結合線段切割(Piecewise Linear Representation, PLR)系統與類神經網路預測(Back-propagation Neural Network, BPN)等技術,而以 PLR 作為判斷原始資料轉折點之預測工具。研究流程主要分為三個步驟:首先,為了增加投資報酬率,我們將提出選股原則,並以這些原則選出具有投資效益的個股;第二步驟,利用預測模型及事先交易決策分析個股買賣點,輸入變數為技術指標值,輸出變數為買賣時點;第三步驟,預測每日交易訊號,以獲得最佳買賣時機點,即股價轉折點(如圖一)
    綜上所述,張百棧教授所率領的商業智慧運算團隊,除了基礎分析技術超卓外,所應用分析的領域涵蓋面極廣並切合實際應用,尤其是對於生理資訊的判定方面,對於人類社會將會有長足的貢獻,研究成果相當值得期待。
(本文作者:由張百棧教授研究團隊提供)

大數據分析在智慧零售之應用

零售業在大數據的推波助瀾下,早已顛覆了過去的銷售模式,帶來的是新一波智慧零售,主要是以個別消費者為核心,利用大數據分析其需求特性,並藉此提供個別化之行銷策略,以期透過個人需求的滿足以提高企業的獲利;由於每位消費者的身上有其專屬的行為模式與消費習慣,只要零售業廠商有意蒐集其各項資料,透過資料驅動分析(data driven analysis)的分析方式,便可以從中挖掘個別消費者的訊息,並提高零售業的精準行銷,是為新一代的商業智慧(Business Intelligence, BI);而本中心智慧零售團隊即是此一領域的翹楚,並已應用在百貨及電信業者的客戶消費行為分析上。
以百貨業的客戶消費行為分析為例,透過分析持有Happy Go卡消費者在遠東百貨的消費資訊(已經去除可識別特定個人之資料)的資料,便可分析持卡者於消費時在櫃位間的移動,進而提供遠東百貨在櫃位的調整,希望藉此提供更能滿足消費者購物需求的動線設計;其次,在DM的發送上,也因為大數據分析而改變過去通用型DM發送模式,透過大數據對客戶消費內容進行分析,進而針對其特定需求來客製化DM,以彈性地變更DM內容,讓DM更可以打動個別消費者的心,增加其來電購買意願,提高百貨公司的獲利能力。
圖二:建構於消費者行為理論與生活型態理論的BI介面
圖二為該團隊所建立的BI應用系統,此一系統之建立係以行銷領域中的消費者行為理論(customer behavior)、生活型態理論(life style theory),配合多因子分析(factor analysis)的統計方法,找出關鍵的影響因子;以DM的發送為例,透過資料驅動分析製成BI,百貨業者便便可藉此而更為精準地發送個別化DM,實現精準行銷的最高奧義;換句話說,以往百貨公司在進行周年慶時,所發送的DM都是無差異化的,因此印製成本甚高,成效如何也甚難評估;現在透過大數據分析的BI系統,因已知個別客戶的需求特性,因此將過去厚厚一本的DM進行客製化製作,甚至以eDM的方式來進行精準廣告的投放,不只能提高進準度,同時亦降低了DM的印製成本;綜上所述,透過對百貨業之顧客的大數據分析所提供的BI,除了更能了解顧客的消費型態外,亦可協助百貨業者透過櫃位安排以及精準行銷的推動,進而提升百貨業者的獲利能力。

圖三:電信業使用者之社會網絡圖
而該團隊另一研究則是在電信業客戶資料的分析,目前,台灣各大電信業者皆積極進行大數據之加值應用,希望從中找到新的獲利管道,而使用者社會網絡分析即是一種可能的方式;一般來說,可以將電信業區分成兩個資料集(DataSet),分別為語音通話資料和3G4G上網,其中消費者的語音使用本身便可分析其社會網絡(如圖三),比如說親朋好友、網內、網外互打等,從中分析語音服務使用者的社會網絡結構,並從中判讀意見領袖與其影響力路徑;此部分的分析可以搭配簡訊傳送資料來進行,以Aster Discovery Platform的方式找出通路網絡中的意見領袖,從中辨識出網路中心點─即核心使用者(如圖四),並以Customer Behavior Segmentation建立分群,找出諸如「高花費、偶欠費、常抱怨」、「愛撿便宜、買錯方案、不怕違約」的客群,並對其發展客製化的行銷方案;此一分析結果應用上較為成功的案例,如電影院業者與意見領袖的合作,透過簡訊通知這些核心使用者,並表示若其發送電影折價訊息給其他網絡成員,且這些訊息接收者也因此而前往電影院消費時,則此一意見領袖即可獲得一些獎勵,效果非常的顯著,據了解整體票房可提升至30%左右。


圖四:Aster Discovery Platform
另一方面,從3G4G使用者的上網資料來看,電信業者可以取得用戶各項使用資訊,簡單來說,就是用戶逛了哪些網站、停留網站多久時間、使用了哪些APP等,事實上,這些行為是相當紊亂的,故取得資料後如何利用統計技術將這些混雜的巨量資料壓縮成幾個大面向,就顯得相當重要,以購物網站為例,有各大購物類網站、APP或是關鍵字搜尋等,然後透過機器學習(Machine Learning),利用大量資料立自己的「智慧」,進而預測、分類或是分群等動作,如搜尋規則及關鍵字的建立等,進而分析使用者在網路上的行為,如逛購物類網站的時間比重、購物行為,甚至是使用者的生活型態、社經地位等,也就是說可以藉由統計分析去辨識該位使用者的身份,如上班族、學生族、銀髮族等,該團隊積一直極於發展顧客動向洞察研究,協助業者深度認識顧客生活型態、社交網路,並發展留住舊客、開發新客的顧客關係管理新方法,目前已提升女性用戶的市場滲透率 (penetration rate) 3%,未來將加入位基服務(LBS; location-based) 資料,將有利於精確判讀用戶行為。
在龐大且複雜的資料中,如何進行蒐集以及如何有效處理各種消費數據,透過巨量資料分析深入了解消費行為,在抽絲剝繭中找出關鍵分群,進而掌握先機並創造商機。而曾芳美院長率領該團隊與業界知名百貨業、電信業共建良好合作模式,便是將所有的應用淋漓盡致地體現出來,將理論模型與實務需求結合並利用大數據解決方案,洞見消費者需求並依此發展精準行銷方案、發展Online to OfflineO2O)零售商業模式等,並用以整合至企業內部既有的結構化資料,從而發展出一套整合分析模式,為經營者帶來洞察力。最後,值得一提的是,在這些大數據分析與應用的背後,也帶來個資隱私保護的疑慮,不過再去除可識別化資料後,便可進行上述分析,進一步提升BI在零售業的重要性。

(本文作者:由吳相勳教授、廖東山教授研究團隊提供)


匯流政策時論

開放網路 大戰開始

美國聯邦通訊委員會(FCC)主委甫於24日宣布開放網路(open Internet)政策,納入歐巴馬總統去年11月楬櫫的網路平等原則。儘管之前的行政命令已被法院裁定欠缺法源基礎,FCC依然公告了最嚴苛的開放網路條文,要求傳輸條件及資費透明化,傳輸業者不得阻斷任何合法內容的傳輸及不得對內容業者做差別待遇。

開放網路法規宣告了傳統電信(傳輸)與新興網路(內容)兩大產業的殊死戰正式開打,而網路界略勝一籌。當傳輸業者被禁止對傳輸內容做差別待遇,意味著影音與遊戲這些耗頻寬的服務,其傳輸速度和品質必須與瀏覽網頁或讀取電子郵件時一樣。在行動數據的時代,電信傳輸業者面臨固網語音、固網寬頻、行動語音及簡訊營收的大幅衰退,只剩下行動寬頻營業額一枝獨秀。如果傳輸業者不能從寬頻傳輸中開發及分流加值服務,亦即提供差異化服務,獲利空間便有限,成長停滯。可想而知,傳輸業者變成了笨水管(dump pipe),原有營利模式被徹底擊垮。就此,傳輸業者應會奮力抗拒開放其網路。

相對地,美國Amazonapplegoogle這些生產網路內容的巨無霸業者亦不願付額外的傳輸費用給電信業者,這等於讓傳輸業者主宰了他們的營運模式。它們急於打倒舊世界的秩序,挑戰近百年來電信業者不是按時間就是按流量的計價模式。開放網路的主張,直陳釐清管制思維的必要性。

首先,傳輸業者一再強調開放網路扼殺了業者的網路維運權限,但反對者認為寬頻傳輸也應納入電信業者所承擔之共同載具義務的範疇。且不論將寬頻傳輸視為共同載具的法理性,我們想要問的是:不區別不同服務的傳輸品質與速度真地可以提升消費者福祉及幫助網路產業的發展嗎?當毋須即時瀏覽的電子郵件及網頁下載也使用影音串流技術傳輸,意味著大頻寬的消耗與無效率的使用基礎網路。同時高速寬頻傳輸需要電信業者的資本投入以建置基礎網路,但在無差別待遇的訂價限制下,傳輸業者的利潤已被鎖住,沒有誘因投資網路建設。最後就像公有財的悲劇,所有OTT服務的傳輸速度及品質都下降,更不利新服務的發展。事實上,在FCC宣布開放網路法規之前,Netflix已跟傳輸業者Comcast達成商業協議,支付額外費用啟動快捷道路(即高速傳輸服務)。快捷道路就是雙方鑿戰多時所發展出的和平協議,導引雙方在衝突中尋求和解。然而開放網路法規硬生生斬斷了商業機制,片面地將戰果歸給內容業者,進行新舊世界的權力重分配。這是開放網路主張應被嚴肅檢驗之處。

反觀台灣,開放網路議題尚未引起各界的注目,一則以喜,一則以憂。喜的是我們因為缺乏強大的原生內容業者,若貿然實施,受益者將是美國或大陸的OTT業者;憂的是,台灣肥沃的文化土壤上竟然長不出強大的OTT,在全球OTT與傳輸業者大戰之際,恐連台灣的傳輸業者也一起滅頂。在台灣,開放網路不是問題,缺乏原生而強大的OTT才是政府推動數位匯流失策之處。
從目前4G應用服務的補助方案依然看不到我國OTT成功的契機。
全文
( 本文作者:本中心周韻采教授。中時電子報/2015-02-13 )

黨政軍條款是活化石

農曆年前台灣數位匯流發展協會公布了103年底的調查報告,其中有些數據頗堪玩味。在首次詢問2009位受訪者關於台商投資媒體的意見中,反對台商投資媒體的比例高達59.5%,僅28%認為不應限制台商。另一方面,當受訪者被問到是否同意開放政府資金投資媒體,51.9%的受訪者同意開放,而35.1%的受訪者不同意開放。有趣的是,半年前同樣的調查卻顯示,只有36.1%的受訪者贊成開放政府資金投入媒體,而49.7%的受訪者不贊成開放。

此民調結果顯示台灣民眾對政府投資媒體的態度已出現大反轉。我相信這與去年的頂新食安風暴及一連串柯P掀起的檢驗財團風氣有關。民眾普遍對台商回台大肆搜購房地產、媒體,卻未善盡社會責任感到厭惡,對台商的信任感降到新低。然而民眾也同時理解到台灣媒體面對新式的跨國競爭(例如OTT)已力有未逮,需要大量資金投入媒體創新,故在民眾不願台商入主的情況下,轉而接受政府的參進。

弔詭的是,現行廣電三法的黨政軍條款卻限制了政府資金的投入。此時此刻台灣政府參進媒體的公信力比企業還高,顯見當年通過該條款的黨國時空環境已不復存,黨政軍條款現今反像是石器時代殘留的活化石。

第二屆NCC認定黨政軍條款所謂「政府、政黨不得直接、間接投資媒體」是指與廣電媒體相連的任一層投資都不能有任何黨政軍資金(股份)。這樣無限上綱的認定造成法規上的窒礙難行。首先,國安基金在公開市場上購買績優股,而這些績優股若直接、間接、間間接、再間間接投資廣電媒體,全都違反了黨政軍條款。除了著名的台灣大併購凱擘案涉及黨政軍條款外,包括三立、民視等約58家衛星電視台也都中鏢,這種人人有獎的法律禁止凸顯了法規的荒謬性。其次,對違反黨政軍條款的業者卻又無法執行處分。NCC近年來對媒體業者的行政裁罰皆被行政法院駁回,理由是不能苛責媒體做為善意的第三人(最下游的媒體無從得知哪一層投資有黨政軍資金,也無從強制出清資金)。

黨政軍條款的修正已歷經兩任主委任期,也始終躺在立法院未竟全功。為解決活化石的窘境,NCC應考慮「自己的法律自己救」。NCC可透過更正對黨政軍條款的解釋,鬆綁政府投資媒體的限制。例如在加諸政府資金投資媒體平台、頻道種類的限制(如不得投資新聞頻道)等更細緻規範下,比照有廣法相關法條的認定,允許直接、間接投資外(即第三層)的政府參進。這些希望NCC更改法條解釋的呼籲早已有學者提出,但NCC及主事官員缺乏承認「昨非今是」的勇氣,寧可捨近求遠,將責任推脫於立法延宕。在此財團不被應許進入媒體之際,NCC若持續抱殘守缺「一股都不能有」的法令解釋,在歷史下恐留下虛化台灣數位匯流的落井石之名。全文

本文作者:本中心周韻采教授。中時電子報/2015-02-27 )

網神就是神
去年九合一選舉是中央政府繼太陽花學運後,再度被網路海嘯吞噬的又一例證。劫後餘生的行政院言必稱網路,除了這幾個月對外宣傳的一連串網路施政外,並向網路名人求救,安排他們幫官員上課。課程終了,這些講師甚而被封為網路大神。首先不論官員到底懂不懂網路或社群媒體,我上網查看這些網神的講義,至少從書面審視,大部分都是網路知識ABC,政府過去許多委託研究報告早已呈現相關論點,不曉得網神們是故意藏拙還是認為這樣的認知就足以治國。

政府向網路界人士膜拜呈現的是自身對治理的誤解,誤以為懂網路等同懂網路治理。網路治理除了必須熟悉網路服務外亦須深刻理解政府運作,才能發展良善網路治理的準則,進而研發出合宜的治理平台與應用服務。否則僅能提供片面藥方,無法全面關照網路治理的韜略。

舉例而言,柯P競選團隊選前一直強調開放政府理念,當選後其網路部同仁火速建立一新的市民陳請網站,這網站約兩三天後就從網路世界消失了。原因是什麼呢?現行市長信箱或市民1999熱線都是有分案/客服中心處理後送事宜,亦即每一陳情事由都可以對應一個局處單位負責,而該局處同仁就必須按照規定處理及回覆陳情。但柯P網路團隊只著重網路即時反應的特性卻忽略了後端政府的分工機制,而沒有架設後送分案功能。當單日網站上湧進兩、三千封陳情案件,卻因沒有分案機制,全部卡在網站裡,同仁無法回應,顯然造成網路治理的失靈。於是,這網站就像是蓋的富麗堂皇的樣品屋,終究還是要拆掉。

上月美國聯邦通訊委員會(FCC)的資訊長來台訪問,拜會了許多與網路及資安相關的政府機構,如果官員們對網路有所認知,應該會對其提出的觀念感到驚豔。他說明美國民眾對臉書有資料儲存與侵害隱私權的疑慮,而根本解決之道在於建立公私協力的第三方認證機制(如APP),讓使用者自己決定願意釋放哪些個資給社群媒體。

談到自身使用社群媒體的經驗,他強調政府官員應有官方帳號以發表及回應訊息,最重要的是「自己的帳號自己po」,不能假小編之手,因為網友要的就是與本人對話,被正視的感覺。我也問他官員大都忙於公務,如何自己po文呢?他回答利用下班時搭地鐵返家的那一小時。我相信我們的官員只要能做到「自己的帳號自己po」,讓民眾感受到溝通的誠意,許多網路治理的問題就有基本的解答了。

美國官員之所以能掌握網路治理的精髓,在於他們有豐富的專業知識及累積了公務參與的經驗,二者不可偏廢。例如這位資訊長在加入FCC之前,曾派駐在阿富汗擔任戰地指揮官的資訊特助。他必須發展一套資訊系統,協助美軍在每6個月的輪調期間內迅速了解在地情形,減少傷亡。有了這樣的實戰經驗,也難怪他處理FCC資訊業務得心應手。

與其請網神向官員授課,不如打破人事聘任窠臼,以專案方式,聘任他們擔任部會局處的資訊長,讓他們進入政府,直接在第一線運作。相信他們會有與授課時完全不同的領悟,而當公務運作與網路知識結合時,那才是台灣邁向良善網路治理的開端。全文
( 本文作者:本中心周韻采教授。中時電子報/2015-03-13 )

誰把新媒體變舊了
入政府,行政院刻正核定影視音產業第二階段發展方案,其中新增一項成立數位媒體發展中心計畫,這顯示政府已經正視新媒體的到來,納入政策處理。然而細看數位媒體發展中心轄下的工作項目,又令人不禁擔心政府官員對新媒體的認知不夠精確,形成錯誤的決策,反而逆向抑制新媒體的正常發展。

我不贊成其中兩項工作項目:一是舉辦微電影大賽,二是建置華文影音平台。微電影的確是兩三年前很夯的名詞,一時間政府等單位都紛紛舉辦微電影競賽。但很遺憾地,試了兩年,我們並沒有找到微電影的商業模式。中間雖有鬼才導演Wes AndersonPrada合作的微電影,但仍屬形象塑造或促銷的長版廣告,本身並不具獨立的商業價值。那這兩年競賽得獎的微電影呢?很多上架至MOD,供觀眾點閱,但是免費的。換言之,年復一年的微電影競賽只給了年輕創作者一次展現的機會,卻沒有下部片的前景。而沒有與現有產業鏈整合的微電影競賽,無益新媒體發展。

政府若真想培育影視人才,不能只辦微電影競賽,反應把微電影當作棒球小聯盟運作,各微電影競賽的優勝者可透過政府協作,與商業製作人媒合,登上大聯盟,創作具有商業價值的長片。

第二,華文影音平台(華文的Youtube)的概念本身即是謬誤。要經營知名的影音平台,首要就是要海量內容,但要說服創作者願意免費上傳作品的前提又是網站人氣,否則就須支付創作者版權費才能上架。其次,網站人氣象徵的就是流量,流量代表的就是頻寬,亦即人氣越高的網站須支付的頻寬費用就越高。目前Youtube雖然享有高人氣,但廣告收入也無法支應龐大的頻寬費用。在台灣,壹電視的例子也殷鑑不遠。當年黎智英也曾豪情壯志地在全台狂撒一百萬台機上盒,以每部片1元的價格搶占視頻市場,但每月巨額的頻寬費用還是讓黎先生無法無限制地燒下去,最後忍痛出賣。

易言之,政府到底有多少決心,即多少預算,自行建置與經營華文影音平台呢?以目前政府僅匡列1500萬元預算推動數位媒體中心,若做華文Youtube,應連付一個月的頻寬費用都不夠。就算政府編足預算,網站人氣卻需要長時間累積,非一朝一夕可成。三五年後若網站瀏覽人數不佳,承辦官員會不會承受來自立法院、審計部及監察院彈劾監督的壓力而必須砍掉計畫。此時,政府過去的投資付諸流水。所以,提倡建置華文影音平台的官員必須審慎評估,自己做一個華文Youtube會比在Youtube上開一個華文影音頻道更有成功機會嗎,有更好的成本效能嗎?建置華文影音平台真正的價值應是作數位影音的倉儲中心,供創作者存放檔案,並以頻道方式露出於知名影音網站及社群媒體。

我們的確看到政府有心發展新媒體,但是以過時的認知規畫政策,其所造成的產業災難恐怕不小於無作為。為什麼政府無法推出正確的新媒體政策呢?也許答案就在決策者身上。了解新媒體的人必定是複合式的專業人才,懂網路也懂影視產業,斷不能因為新媒體在網路操作,就等同視之。決策者若認為自己或官員懂資料倉儲就等於懂網路,懂網路就等於懂新媒體,那就像王安憶的長恨歌小說裡寫道:「我們總是在對的時間裡遇到錯的人」,嗟歎而已!全文

( 本文作者:本中心周韻采教授。中時電子報/2015-03-27 )

大數據藍海

應用大數據分析,提升半導體產業競爭力
自引進IC封裝開始,台灣半導體產業已發展40餘年,近年來總產值已近20,000億元新台幣[1],在全世界佔有一席之地。半導體產業競爭力來自於成本、良率及交貨時間,其中良率更是一家公司有競爭力之所在。近年來自動化生產及物聯網(Internet of things)的技術發展,使得所有半導體製程相關的資料得以蒐集與保存,這些資料包含產品資料、機台資料(equipment data)、量測資料(metrology data)、缺陷機資料(defect data)、晶圓接受度測試資料(wafer acceptance test data)及晶圓測試資料(circuit probing data)[2],如何有效的使用這些大數據資料一直是半導體產業重要的課題之一。除了提升產品良率之外,產品/製造流程缺陷追蹤、供應計畫(supply planning)、提升能源效率等都可以利用大數據分析提升公司競爭力[3]
圖五: 資料主要可分成三個步驟:資料前處理、資料分析、驗證與評估
處理這些資料主要可分成三個步驟:資料前處理、資料分析、驗證與評估(如圖五)[4]。在資料前處理時必須先修正資料錯誤,常見的資料錯誤有以下兩種:

1.資料出現異常值(outlier)。透過盒鬚圖(box plot)可輕易的分析出異常值,通常發生的在設備工程師在調整機台的時候或是由其他外在因素造成,因此這樣的值通常直接刪除。
2.資料出現遺漏值(missing value)。因偵測設備的限制,有時資料會有不完整的情況,處理這樣的狀況可透過補值的方式(內插法、平均法等)回填可能的資料或直接刪除該筆資料。

因每種資料的性質與內容不同,為有效使用這些資料,將資料庫整合為必要的步驟。如何整合這些資料庫首先需考量實際問題需求,再來考量資料庫資料的型態,例如機台資料為連續型資料、缺陷機資料為離散型資料,因應不同的資料型態必須選擇不同的方式去做合併。

在資料分析處理上,常見的方式可分成以下幾種方式:
1.利用資料分群演算法,例如K-means演算法、階層式分群(hierarchical clustering)演算法將原始資料分群。
2.將分群好的資料透過決策樹找出造成問題發生的可能因子[5],或透過機器學習演算法,例如SVM建立模型,預測問題是否會發生,藉此實作出預警系統。

資料分析完之後必須評估結果是否符合現實以避免過適現象(overfitting)。在此步驟往往會發生分析結果和過往經驗不一致的情況,除了花許多時間與工程師溝通確認之外,還需找不同的資料集交互驗證,已確保資料分析方式是可行的。

在處理大量的資料時面臨到許多的挑戰,例如:傳統的分析工具與方法通常適用在小規模的資料上,當資料量大且複雜時往往失去其效用、分析數據需耗費大量的計算時間,如何快速的處理大量資料是一項大的挑戰。近年來已有一些工具可解決以上的問題,例如:MLlib(Machine Learning Library)即可支援一些機器學習的套件在Spark平台、RHadoopSparkR套件可支援R的分析工具在HadoopSpark平台上。除了在分析資料時面臨的挑戰之外,TATA Consultancy Services(TCS)顧問公司在2013年從其他面向提出在處理大數據資料時面臨的許多挑戰,舉例來說:資料工程師需取得部門經理的高度信任、對於不同的商業決策需決定該使用哪些資料、利用大數據分析幫忙部門經理做決策[3],以上的問題待管理相關的人員來解決。
對於半導體產業來說,透過大數據資料分析歷史資料,挖掘其中有用的資訊以提升公司競爭力是非常有效的一種方式。科技部與台積電在2014年下半年即舉辦相關的比賽,希冀發掘半導體相關資料的各種有用資訊。相信往後會有越來越多人力與資源投入這領域,讓半導體產業邁入新的世代。

參考文獻
[1]  陳玲君, 2014 半導體產業年鑑. 2014.
[2] Li, T.S., C.L. Huang, and Z.Y. Wu, Data mining using genetic programming for construction of a semiconductor manufacturing yield rate prediction system. Journal of Intelligent Manufacturing, 2006. 17(3): p. 355-361.
[3] TATA Consultancy Services, The Emerging Big Returns on Big Data: A TCS 2013 Global Trend Study. . 2013.
[4] Chien, C.F., W.C. Wang, and J.C. Cheng, Data mining for yield enhancement in semiconductor manufacturing and an empirical study. Expert Systems with Applications, 2007. 33(1): p. 192-198.
[5] Hsu, C.-Y., C.-F. Chien, and Y.-C. Lai, Main Branch Decision Tree Algorithm for Yield Enhancement with Class Imbalance, in Intelligent Decision Technologies. 2012, Springer. p. 235-244.

相關文章
資料延伸閱讀
&  資料分群(data clustering)
把相似的資料透過特定的分類方法分成不同的組別或者更多的子集,這樣讓在同一個子集中的資料都有相似的屬性。
&  MLlib (Machine Learning Library)
Apache Spark的機器學習擴展資料庫。目前可支援多種常見的機器學習演算法,例如:線性SVM、邏輯式回歸(logistic regression)、二元分類、k-means分群、線性回歸…等。根據官網數據,在效能測試(邏輯式回歸)上較傳統的MapReduce100倍以上,在大數據資料分析中是個不錯的利器。
&  工業4.0 (industry 4.0)
由德國政府提出的高科技戰略計劃,用來提昇製造業的電腦化、數位化、與智能化。目標是建立具有適應性、資源效率、及人因工程學的智慧工廠。
&  工業互連網(Industrial Internet)
該計畫由奇異公司(General Electric)提出,目標是整合兩次工業重大革命的成果:1.工業革命帶來的眾多複雜機器,2.數位革命帶來的資訊、通訊系統。工業互連網匯集了許多領域,例如:機器學習、大數據資料分析、物聯網…等去蒐集許多機器上的資訊,藉由分析資料、使用這些資料去調整操作。
(本文作者:元智大數據與數位匯流創新中心簡廷因教授Email: tinin@saturn.yzu.edu.tw )
國內智慧電網的發展—遠端遙控幫省電
大數據於智慧電網應用範疇廣泛,主要是因為在電網運行舉凡發電,輸電,變電、配電、用電和調度、設備檢修和電力管理過程中會產生海量異構、多態的資料[1],有關智慧電網建設架構與效能請參見示意圖,示意圖中各個環節隨時會產生數據資料,這些資料可分為結構化資料和非結構化資料兩大類,其中對於數據資料的準確性、存儲與處理、異構多資料來源的融合,以及數據視覺化解構等,為當前大數據於智慧電網應用相關研究的重要課題[2]
國內智慧電網幫省電的例子很多,譬如某全台連鎖烘焙業者,長年以來電費支出都居高不下,2010年在裝設智慧電錶,採取智慧電網系統管理後,錯開麵包師傅開烤箱時間,避開用電量尖峰的時段,把用電峰值維持在與台電契約度數以下,經過1年,該公司省下約新台幣600萬元的電費[3]。此外如工研院透過網路雲端連結台南六甲園區的電力數據,在新竹園區即可遠端分析智慧遙控所有的電力開關,像是會議室因人員進出變化,感應器將數據傳輸到雲端系統實施分析,進而調節空調冷度,又或是因人員移動而調節燈光的光照度等,經由電腦成功控管,分別在2012年一年省下66萬度的電,以及2013年省下56萬度的電。又如國內第二大超商導入智慧電網管理模式,將冷氣、冷凍櫃、電燈等數據資料全部收集,試算分析後對電力調度做最適的調配,2014年就較往年節省2成電力,同時減少74.4萬公噸的碳排放量[4]

圖六:智慧電網建設架構與效能示意圖--元智大學楊念哲老師提供
其他有關大數據於智慧電網應用發展的案例尚包含有狀態感知、主動服務、主動控制、主動管理、主動策劃等幾方面,狀態感知有提供多種技術的集中視圖(地理空間和可視化分析)、使用先進計量基礎設施(Advanced Metering Infrastructure, AMI)和感測器數據分佈狀態估計等;主動服務有峰值負載管理和能源投資組合管理分析、消費者行為與使用時間的定價分析等;主動控制有電網和電能質量優化控制、可再生能源和存儲分析控制等;主動管理有停電恢復分析、使用AMI數據查找變壓器電壓問題等;主動策劃有客戶之長期負載與電壓分析等[5,6]

大數據技術在智慧電網的應用發展尚有許多可進步的空間,其與互聯網資料、經濟數據、交通情資、天氣狀況、商業及工業監測資料等的融合,將可促進智慧城市的建立,提供環保節能與高效使用的環境[7],除為普羅用戶提供便捷的電力外,並可為商業貿易經營、政府政策制定及公共事業管理提供有力的支持。

參考文獻
[1]Long-chuan YAN, Ya-xi LI, Bin-chen LI and Zi-yan ZHAO, “Opportunity and Challenge of Big Data for the Power Industry,” Electric Power It, Vol. 11, No. 4, pp. 1-4, 2013.
[2] 淺談美、亞、歐智慧電網發展現狀 | 2013-08-13 10:59:57 | 來源:中國經濟網 | 編輯:李金超 http://big5.cri.cn/gate/big5/gb.cri.cn/44571/2013/08/13/7031s4215873.htm 
[3] 智慧電網物盡其用 聰明管理用電行為 | 機電整合 | 雜誌櫃 | NOWnews 今日新聞網 http://mag.nownews.com/article.php?mag=11-59-1891#ixzz38M7dfI8r 
[4] 2014.11.02台灣產業趨勢報告-BIG DATA大未來/智慧電網幫省電 遠端遙控開關,中天電視 https://www.youtube.com/watch?v=1VQ6YDnkjq0 
[5] Guangyi Liu, “Big Data in Smart Grid,” China Electric Power Research Institute Report, 2014.
[6] Min Chen, Shiwen Mao and Yunhao Liu, “Big Data: A Survey,” Mobile Netw Appl, Vol. 19, pp. 171-209, 2014.
[7] Y. Song, G. Zhou and Y. Zhu, “Present Status and Challenges of Big Data Processing in Smart Grid,” Power System Technology, April 2013 - en.cnki.com.cn.

  (本文作者:本中心葉榮冠教授。Emailstyeh@saturn.yzu.edu.tw )
交通大數據的新創服務運用
近年來,透過群眾活動或社群網站進行資料收集的熱潮,已經燒到了這個世界網路所及的任何一個角落。即使沒有網路延伸到的角落,facebook以及Google也致力於應用太陽能無人機[1]以及熱氣球[2]來進行網路擴展的計劃。各式各樣的新創服務也藉社群網路的力量,透過不斷地收集以及分析群眾在不知不覺中貢獻的資料來服務更多人。
上週的大數據藍海,我們已經討論過瑞典斯德哥爾摩這個智慧交通的示範城市,透過15000輛的計程車持續產生的定位資料來收集路況資料。藉以規劃交通系統建制、並進行事故管理以及急難救助等服務。今天我們要提的則是由斯德哥爾摩的交通巨擘Taxi Stockholm所開發的另一個交通資訊結合旅遊的新應用-Taxi Trails[3],一個新形態的旅遊指引服務。
圖七:計程車載客路徑熱力圖
這個服務由瑞典知名廣告商所支持,屏除傳統使用人工建制景點資訊並搭配使用者評分的經營模式。該系統直接運用計程車每年高達八百萬筆的的載客路徑資料來進行分析,找出觀光客在地旅遊的各種運動軌跡。並藉由熱力圖(Heat map)的呈現方式來展示觀光景點之人潮密度分佈。透過使用者界面的操作,用戶可以選擇顯示週間或是週末、白天或是晚上等時間條件。甚至設置搭車族群分類的條件,分別挑出來自高級住宅區 Östermalm 的旅客或來自Södermalm等地的時尚旅客。除了乘客上下車的地點密度呈現之外,該網站也跟Google maps合作,透過地理資訊標示出上周熱門的景點並連結相關資訊給使用者參考。並透過高解析度的街景畫面,自由的在景點周遭漫步。

參考文獻
[1]Widening the net: Facebook drones to cover world in wi-fi
[2]http://www.independent.co.uk/news/world/americas/widening-the-net-facebook-drones-to-cover-world-inwifi-9222334.html
[3]Project Loon: Google's Wi-Fi Balloons for the World http://www.google.com/loon/
[4]Taxi Trails by Taxi Stockholm http://www.taxitrails.se/en
(本文作者:本中心葉奕成教授。Emailichenyeh@saturn.yzu.edu.tw )
大數據藍海 – 個人化醫療
隨著生物科技的進步,各式各樣的生物晶片已被廣泛應用在生物醫學與疾病治療中,結合生物資訊學(Bioinformatics)與大數據分析技術(Big data analytics),更加速了個人化醫療(Personalized Medicine)的發展,其中,次世代定序技術(Next-generation sequencing更是扮演著重要角色,能夠在不到一周的時間,即可完成以往傳統定序方法需花10年的工作,並且金錢成本也快速下降。然而,這些如天文數字般時時刻刻增長的龐大數據,我們該如何去分析與處理?於是,發展出更精準且全面性的大數據分析方法將是關鍵。縱觀業界,「訊聯生物科技」所開發之非侵入性胎兒染色體檢測(Non-Invasive Prenatal Testing),便是透過抽取孕婦的靜脈血,對其血漿中所含有的胎兒DNA資訊,結合次世代定序晶片和生物資訊技術進行分析,即可準確檢測胎兒是否患有唐氏症愛德華氏症巴陶氏症等染色體疾病。此外,「賽亞基因」開發肥胖體質檢測產品-體質基因檢測(Weight-Related Genotyping,透過檢測特定基因位置之個人基因型,由此可區分出「脂質型肥胖」、「澱粉型肥胖」、「代謝型肥胖」、「臟器型肥胖」或「頑固型肥胖」等肥胖體質類型,並透過分析結果來給予不同肥胖體質類型的受測者,減重、飲食與運動上的建議。「康健基因 Health Genetech」更整合生物實驗、建構基因體資料庫與次世代定序技術所產生的大數據資料;僅需使用棉棒採集口腔壁上之檢體,即可提供客戶一次檢查,卻終身受用的個人基因檢測服務,預測難以避免的疾病風險,更與多家醫院、診所合作,為病患進行個人化醫療之相關檢測。大數據技術正開啟個人化醫療的新頁。
(本文作者:本中心李宗夷教授。Emailfrancis@saturn.yzu.edu.tw )

大數據報報

啟動大數據應用計畫 逾600項金融資料將被開放
金管會於22日宣布啟動大數據應用與金融資料開放計畫,將在一年內投入不動產授信資訊及股票投資行為分析等11項大數據計畫,現階段方向是「以免費為原則、收費為例外。」預計開放631項金融資料讓民眾加值應用。【聯合新聞網/2014-02-03全文
未來 搜推文也可靠Google
社群媒體推特(Twitter Inc.)同意搜尋引擎巨擘Google Inc.獲取其數據流;推特達成該交易是希望推文可以更頻繁地出現在Google的搜索結果中,這也將為推特帶來更多的流量;未來,推特也可以向瀏覽者出售廣告,更重要的是將可以吸引更多使用者進行註冊加入該社群媒體以無限的擴大其社群網絡之力量。【The Wall Street Journal/2015-02-05全文
大數據X物聯網 零售業智慧化
利用大數據分析洞察消費者行為,挖掘消費者購物行為,除了會員購物記錄、銷售數據,還可將社群、地圖、氣象、Open Data等納入考量,並將這些龐大的數據匯聚成為資料集(Data Set),藉此掌握消費群的喜好與需求以增加銷售獲利。【DIGITIMES中文網/2014-02-09全文  
未來趨勢 文字與數據的資料探勘
根據波士頓Aite集團報告指出,探勘非結構性資訊的比例已從 2% 上升到 35%,預期未來結合文字與數據的資料探勘 (TDM) 相關支出也將爆增一倍。資料探勘可以協助人類預測未來,如協助開發新藥,預測小麥價格走向、政府債券、商品價格等。【The Street /2014-02-12全文
資料儲存 強調快、省、穩
資料經濟抬頭,數據成為企業眼下重要的資源。一反過去資料儲存的被動角色,IBM領先市場,積極推廣快閃記憶體儲存解方案,強調「效能」以及「回應速度」是企業在選擇儲存產品時最為在意的選項,而IBM快閃記憶體儲存解決方案,即標榜「快、省、穩」的三大優勢;數據的關鍵應用,是推升競爭力的重要一環。【經濟日報/2015-02-13全文
大數據發展三階段
根據Teradata首席技術長寶立明表示,大數據發展可以分成三階段,先蒐集人們的Cookie和搜尋行為,再來分析FacebookTwitter、部落格文章等非結構化資料,最後加入物聯網,如針對分析感測器數據。【數位時代 /2014-02-17全文
BI崛起 大數據X商業智慧
自助式BI蓬勃發展,現在有很多的業務人員或是商務人士都會選擇購買容易上手的分析軟體,如TableauQlikMicrostrategy。以2014年度報告來看,Tableau第一季度到第四季度的營收增長了92%,而Qlik也增長了65%Microstrategy持平,這無疑是展現簡易型分析工具的需求。【IT經理網/2014-02-23全文
軟體定義資料中心  安全防護更上一層
隨著雲端、大數據以及軟體和架構服務廣為產業界使用,現在的資料中心正快速轉變,當然,保護資料中心的方法也需要一同轉變。全球高效能網路安全領導廠商Fortinet推出新的VMX解決方案,透過縝密的集中化管理,為其軟體定義資料中心提供更佳的安全防護。【資安人/2015-03-02全文