主題亮點

數據系統及其資料儲存子系統之設計與管理
Design and Management of Big Data Systems and Their Data Storage Subsystems
本中心之系統核心分項A以大數據系統、雲端系統架構為環境,探討其下資料儲存子系統之設計與管理議題,希能提升大數據系統與雲端系統之效能(performance)、可靠性(reliability)、可用性(availability)、能源效率(energy efficiency)以及使用壽命(lifetime)。明確的說,我們希望能利用資料之格式及存取特性,來最佳化其配置(provisioning)、索引(indexing)、儲存格式(format)、壓縮(compression)、副本管理(replica management)、多版本管理(multi-version management)等策略,以達前述之設計目標。此外,為了最大化效能的同時利用分布式儲存系統下的多個裝置,我們也針對各種負載平衡(load balancing)策略進行探討,以減少勞逸不均的現象並提升系統效能。本分項之相關研究有一定之國際能見度,於國內、外多個頂級或高品質期刊及研討會均持續有成果發表。近一年來,計有3篇論文發表於IEEE Transactions on Computers (TC)1篇論文發表於Elsevier Journal of Systems Architecture (JSA)、6篇論文發表於IEEEACM之國際研討會,此外還有2篇以進行中論文或海報形式之論文發表。此外,尚有10個以上進行中之研究計畫,正積極爭取產學合作,以發揮我們研究成果的實用性價值。本分項之研究焦點如下:

圖一:大數據與雲端之資料儲存系統研究議題
n   高能效之多版本儲存系統
(Energy-efficient Multi-version Keyvalue Store)
許多運算應用都需要同時維護多個版本的資料,來提供系統回溯、歷史紀錄查詢等功能。因此,高效率之多版本儲存系統便成為重要的研究焦點。除提供快速的資料更新與查詢能力外,在許多的應用環境,諸如物聯網(internet of things, IoT)中的嵌入式裝置或大型資料中心的伺服器集群上,能耗都是一個必須加以妥善考量的設計限制。在物聯網的嵌入式裝置上,由於裝置主要以電池作為驅動之能量來源,能耗會嚴重限制裝置的使用壽命。在大型資料中心的集群上,過高的能耗則可能提升系統的運行成本、造成散熱的問題、甚至縮減伺服器的使用壽命。有鑑於此,在這些裝置上,快閃記憶體(flash memory)及相變記憶體(phase-change memory, PCM)等非揮發式記憶體有希望取代傳統之機械式硬碟(mechanical hard disk),進而成為主要之儲存裝置。然而,由於這些非揮發式記憶體的特殊存取限制,例如寫入壽命限制(lifetime of write counts)及寫入速度又遠較讀取為慢(skewed write performance)等,往往需要設計特殊的資料管理架構,以最大化發揮這些非揮發式記憶體的優點。我們針對各種不同的多版本儲存系統,諸如鍵-值儲存(keyvalue store)、多版本雲端硬碟(multi-version cloud storage)、以及多版本檔案系統(multi-version)等,提出新穎之設計,其目標在於同時考量軟體層之資料存取特性,兼顧非揮發式記憶體之儲存媒體的存取特性與限制,以便更快速、可靠、可用、經濟的提供多版本資料存取能力予物聯網及大數據環境使用。此外,我們的設計也提供了可同時查詢多個版本之版本區間查詢(version-range query)及多個鍵值之鍵區間查詢(key-range query)的能力,進一步強化多版本資料庫系統之功能性。

圖二:鍵區間查詢與版本區間查詢

n   適於大數據叢集之高能效固態硬碟設計
(Design of Energy-efficient Solid-state Disks)
隨著以快閃記憶體為儲存媒介之固態硬碟(solid-state disk, SSD)逐漸在消費市場嶄露頭角,其於高效能運算環境之應用也正被迅速發掘中。雖則固態硬碟可提供遠較傳統機械式硬碟更快速的存取效能,其儲存媒體的硬體限制仍須要妥善處理。進一步而言,當固態硬碟被用在大數據環境中,由於大數據環境中大部份資料具有在資料收集時被一次性寫入、卻會在資料分析時被多次讀取的特性,其於固態硬碟實體儲存空間中的配置策略會顯著影響資料分析的性能。舉例而言,由於當前之主流固態硬碟架構均配有多通道架構(multi-channel architecture),包含可同時存取之多顆快閃記憶體晶片,若能在初次寫入資料時便將常見的大數據分析(big data analytics)或模式判別(pattern recognition)方法,例如著名k-近鄰演算法(k-nearest neighbors algorithm, kNN)或先驗演算法(Apriori algorithm),之資料存取順序納入考量,便可將預期會一起存取的資料放在可平行存取的多顆快閃記憶體晶片中,得以提升效能並均化各通道之磨耗情形(wear-leveling)。

圖三:基於快閃記憶體之固態硬碟
(來源:https://upload.wikimedia.org/wikipedia/commons/5/5e/Vertex_2_Solid_State_Drive_by_OCZ-top_oblique_PNr%C2%B00307.jpg
n   富延展性之大數據儲存系統架構
(Highly Scalable Storage Architecture for Big Data Storage Systems)
系統架構的延展性一向是大數據系統等分布式系統的重要設計目標之一。如系統具有優良之延展性,在需要時便能隨時增加運算資源(如伺服器或資料儲存裝置等)數量(scale-out)或抽換更強之裝置(scale-up)以提升服務之吞吐量。在大數據運算環境中,由於大量的資料扮演著舉足輕重的角色,如何提升資料儲存系統的延展性,遂成近年來研究的焦點之一。本分項的研究致力於探究大數據系統儲存堆疊(storage stack)之各層管理機制,希能大幅提高系統之可延展性,並優化資料儲存的服務品質(quality-of-service, QoS)。具體之機制包含:

1.在儲存空間充足時,藉由使用額外之儲存空間來存放資料之副本(replica),可使單一儲存裝置汰換時不需進行資料遷移(data mi-gration),而可達成無縫維護的目標。

2.在儲存空間不足時,改以冗餘資料(redundant data)來減少直接紀錄資料副本之大量空間消耗。舉例而言,若每10個區塊(chunks)的資料配合額外2個區塊的冗餘,則可由每個區塊都有單獨副本情形下之10個區塊之空間減損降低到2個區塊之空間減損,但隨之而來的代價是:若10個區塊中有任何區塊被更新,必須更新所有冗餘區塊,可能會增加系統不必要的寫入、降低存取效能以及減短系統壽命。因此,冗餘資料的配置及管理均須配合不同資料迥異的存取行為,以避免前述之問題。
(本文由本中心Data Center團隊提供)

優化智慧電網演算 提昇電力管理效率
Optimization Smart grid calculus to improve power management efficiency
大數據於智慧電網應用範疇廣泛,主要是因為在電網運行舉凡發電,輸電,變電、配電、用電和調度、設備檢修和電力管理過程中會產生海量異構、多態的資料[1],這些結構化和非結構化的數據資料,其準確性、異構多資料來源的整合、數據視覺化的解構…等議題,為當前大數據於智慧電網應用研究相關的重要課題[2]。元智大學大數據於智慧電網應用研究團隊為研發因應未來電力管理的需求與趨勢,鎖定配電調度、發電預測、精確傳輸、運算平台及大數據演算法等領域,架構出電力管理系統如圖四,此架構核心技術為預測、調控及最佳化,主要亮點為配電調度與發電預測,茲概述各區塊現階段研究成果如後:
圖四:電力管理系統架構圖
配電調度
1. 狀態估測:
主要聚焦於能源地圖之智慧電網耗能分析技術,將能源相關資訊以視覺化方式呈現,並將文字資訊中與資源使用密度有關的部分,藉由用戶端能源地圖的方式呈現,藉此整合能源密度地圖與智慧電網耗能分析技術,提供整體的能源使用趨勢,以提供進行能源運用決策;同時分析各電力系統的耗能元件,以達成完整的智慧電網所需要的資訊,藉由決策管理與電力系統耗能分析結合,可提供更為貼切的節能建議方案。本研究並以元智校園配電網為研究平台,研究結果將有助於設計出最適合校園配電網之規劃設計技術,達到提升整體供電品質、安全性與經濟效益之目的。圖五與圖六分別為2013/11/1 14:20~14:36全校園與一館電力損失分析結果圖,由圖中可看出全校園電力總負載為3615.43kW,系統電力損失為24.50kW,並可看出一館動力空調盤變壓器利用率為25.08%,插座盤變壓器利用率為15.18%,動力盤變壓器利用率為10.06%,以及照明盤變壓器利用率為27.34%

圖五全校園系統電力損失分析結果圖

圖六一館電力損失分析結果圖
2. 視覺節能調控
主動建築節能調控-以視覺方法執行室內光照度估測及人員行為辨識為產學界首創。本研究利用視覺方法執行建築耗能數據搜集及自動調控,取代以感測器為主之資料擷取及調控技術,用於建築照明、排風、暖氣、及冷氣等。主要創新技術有:1)自動取得精確的光照度值及分佈,取代傳統之外部固定式感測器,改為以視覺方法為主之模組;2)利用即時骨架運動偵測及識別,用以判斷室內人員的日常行為及動作,以利全時間光源位置、角度、強度之調整,同時滿足室內人員在設備使用上的需求以及節能目的。相關技術及系統分析已發表於國際期刊Energy and buildings [3] ,一個智慧型建築調控系統細部流程示意圖如圖七所示。

圖七:智慧建築調控流程示意圖
發電預測
1.負載預測
目前研究已完成一種新的特徵抽取技術,可以應用於硬體差異所造成不同量測的影響。在進行數據分析時,一般都假設量測誤差是不存在的,但實務上不同量測工具會有很大的差距。本研究利用不同廠牌型號,包含HTC, Sony, Samsung, Acer Asus的手機,筆電,平版等設備量測無線電波,並應用於室內定位演算法,相關成果已被接受將發表於國際期刊IEEE Trans. on Communications [4]中。圖八為不同之量測硬體下所記錄的無線電波訊號分布,實驗結果證實所提出技術確實有效,此新技術除提升直接定位系統強健性,也可應用於智慧電網下不同電表的量測誤差。若電表硬體的設計有顯著不同時,此演算法可降低因量測誤差所造成後端平台的誤判。
圖八:於不同之量測硬體下所記錄的無線電波訊號分布
2.電能管理
利用Hybrid multi-objective differential evolution algorithm (H-MODE)對所有的delay以及data center的電能消耗這兩個項目做最佳化,如圖九所示,用以了解二者的影響及關鍵所在,目前欠缺transmission delay model,以有效描述transmission delay和頻寬、數據傳輸速率及距離間的關係。
圖九:delaydata center電能消耗最佳化
精確傳輸
1.視覺傳輸頻寬
Power line communication (PLC)的傳輸頻寬已演進到可以傳輸視訊資料的能力,如HomePlug AV2。但以目前多媒體的發展速度而言,HomePlug AV2的頻寬對於高畫質視訊傳輸仍有不足之處,我們將透過最有效率的頻寬壓縮方式來解決頻寬不足的瓶頸,其架構圖如圖十一所示。目前一般的視訊影像壓縮標準都太過於複雜,因此我們將透特別針對PLC於高畫質視訊傳輸應用,來開發出精簡的視訊壓縮演算法,主要呈現較低的演算法複雜度,並且有效節省大量傳輸頻寬的消耗,讓PLC也能夠對於高畫質視訊進行傳輸。

圖十一:適用於PLC視訊壓縮概念架構圖
2.傳輸效能
為提高傳輸頻寬和品質,許多PLC傳輸標準都採用前瞻的前饋式錯誤更正碼(Forward Error Correction CodesFEC Codes)的機制,如HomePlug採用渦輪碼(Turbo Codes)和G.hn採用低密度奇偶校驗碼(Low-density Parity Check CodesLDPC)。本團隊提出應用於多媒體寬頻電力線傳輸之前饋式錯誤更正碼關鍵技術開發,設計與開發一個可量化、可重置與彈性化的軟式輸入軟式輸出(Soft-input Soft-outputSISO)解碼核心(Decoding Kernel),搭派外部記憶體與其他相關電路,即可同時支援HomePlug的渦輪解碼與G.hnLDPC解碼,以多套解碼核心則可快速地解決前饋式錯誤更正碼解碼的傳輸量與解碼效能問題,此概念目前仍是學術及工業上在PLC技術中的開發首例(圖十二)
圖十二:應用於多媒體寬頻電力線傳輸之可重置前饋式錯誤更正解碼核心之示意圖
3.傳輸品質
前饋式錯誤更正碼技術可透過大量平行架構與高頻寬記憶體來實現高吞吐量的錯誤更正能力,但會遭遇到記憶體容量與頻寬記憶體來實現高吞吐量的錯誤更正能力,但會遭遇到記憶體容量與頻寬問題不足的問題。透過三維積體電路技術實現錯誤更正碼三維晶片架構,可以有效改善上述記憶體的容量與頻寬問題。雖然三維晶片可以有效的解決上述問題,但也會受到容易過熱的狀況。本研究所開發之溫度控制器設計透過動態調整前饋式錯誤更正碼之解碼方式,能有效地在符合電力線傳輸標準之規範下,避免溫度過熱。所開發的溫度調節設計,最後將以晶片設計與FPGA實現的方式進行驗證,以確保功能之正確性,以期所發展的溫度調節設計能夠符合現今與未來前瞻性電力線傳輸規格系統的需求(圖十三)
圖十三:動態調整前饋式錯誤更正碼溫度控制器設計示意圖
大數據演算法-系統最佳化
即時與分散式最佳化於雲端環境下之智慧電網應用主要在發展最佳的演算法,目標為運用Analytics as Service (AaaS)進行大規模最佳化雲端計算的基礎架構,搭配滾動視窗橫跨整個歷史數據和所有收集的歷史特徵,以提前預測智能電錶出現故障的時間點。
運算平台-感測運算
目前已完成部分智慧聯網裝置暨雲端環境的建置,如圖十四,預期於前述各區塊完成所望目標,即可於此平台展現電力管理系統的功能。大數據技術在智慧電網的應用發展尚有許多可進步的空間,其與互聯網資料、經濟數據、交通資料、天氣資料、商業工業監測資料等的整合,將可進一步促進智慧電網的建立,提供既環保節能又高效使用的環境 [5]
圖十四:智慧聯網之智慧講桌應用系統架構圖
參考文獻
[1]Long-chuan YAN, Ya-xi LI, Bin-chen LI and Zi-yan ZHAO, “Opportunity and Challenge of Big Data for the Power Industry,” Electric Power It, Vol. 11, No. 4, pp. 1-4, 2013.
[2]淺談美、亞、歐智慧電網發展現狀 | 2013-08-13 10:59:57 | 來源:中國經濟網 | 編輯:李金超 http://big5.cri.cn/gate/big5/gb.cri.cn/44571/2013/08/13/7031s4215873.htm
[3]H. C. Shih, “A robust occupancy detection and tracking algorithm for the automatic monitoring and commissioning of a building,” Energy and Buildings, vol. 77, pp. 270-280, July 2014.
[4]Shih-Hau Fang and Chu-Hsuan Wang, “A Novel Fused Positioning Feature for Handling Heterogeneous Hardware Problem,” accepted by IEEE Trans. on Communications, June 2015.
[5]Y. Song, G. Zhou and Y. Zhu, “Present Status and Challenges of Big Data Processing in Smart Grid,” Power System Technology, April 2013 - en.cnki.com.cn.
(本文由本中心智慧電網團隊提供)

InnoBic論壇

InnoBic「大數據、新媒體、使用者」研討會
元智大學「大數據與數位匯流創新中心」於六月十二日在台大集思會議中心舉行一天的論壇與學術研討,會議主題為「大數據、新媒體、使用者」,特別針對匯流法規、新媒體議題、個人使用等相關議題進行討論,除了由通傳會、文化部、資策會的長官參與的「迎接大數據、匯流創新新紀元」論壇外,尚有三場學術討論,總共十五篇論文。

本校張進福長於開幕致詞時表示,在他擔任校長任內,共舉辦十場與匯流、電信發展有關的論壇,一是延續其於擔任政務委員時的抱負,二則希望在這個平台討論中,各與會來賓的主張與結論,能夠獲得產業界的支持,或是成為公部門的決策參考。

第一場「迎接大數據、匯流創新新紀元」論壇由交通大學教授李大嵩主持,與談人通傳會副主委虞孝成認為,電信業者「得以取得資訊進行分析應用,但不得隨意公開」,透過地理資訊與大數據結合,衍生地理位置服務的相關加值應用(Location-Based Service, LBS),促進產業活絡。文化部影視及流行音樂產業局局長張崇仁表示,影視局不應該利用大數據來做收視率調查,因為各家資料蒐集的方式不同,且收視行為調查亦受個人資料保護法的嚴格限制,讓大數據收視調查分析窒礙難行。資訊工業策進會創新服務應用研究所所長楊仁達認為,社群媒體已經瓜分傳統媒體這塊大餅,並呼籲產業或政府要打造一個開放平台,讓既有的能量能結合創意與創新人才。

第二場由國家通訊傳播委員會委員彭心儀主持,她認為大數據時代的來臨,「隱私權」是相當重要的議題,在管制機制面仍有待商議的。本中心周韻采教授指出,政府在公開資料時,仍有可能透過比對不同資料庫進而識別特定個人之「馬賽克效應」,並建議以公私協力的模式建立第三方認證機構及隱私權保護之交易/授權機制的可行性。本中心葉志良教授透過檢視美國網路中立性形成的背景與近年來的法制發展,以分析網路業者與OTT業者的產業發展動態與競合關係。本中心丘昌泰、劉宜君教授討論文創產業的智慧財產權保護問題及政策建議。中山大學行銷傳播管理所副教授李雅靖建議網路上的侵權問題可以透過創用CC做為強化授權的方式。成功大學交通管理系暨電信管理所助理教授黃郁雯分析歐盟、美國、中國對物聯網監理發展,認為物聯網發展必須從成本、服務、風險等層面做考量。


第三場「新媒體、新平台之挑戰」由國立台灣師範大學林東泰教授主持。元智大學彭芸教授表示,傳統媒體要和IT整合,並懂得資源共享,將舊媒體資源搬上網路。台大谷玲玲教授認為記者角色必須轉型,補足數位技能,精進以符合現今產業的需求。世新大學林富美教授表示近年來中國大陸媒體內容蓬勃發展,從流量創造廣告收入,延伸性周邊商品、VIP制度等多元模式。另外,世新大學秦琍琍教授表示,網際網路雖然提供媒體新管道,但無法避免科學議題的不確定性、偽科學等問題,因此媒體素養和民眾的科學素養都要同時提升。文化大學柯舜智教授則表示,我國電視台影音資料庫都有數位化的規劃,但目前都僅止於典藏,可參考日本NHK、英國BBC等公共電視,可免費下載、剪輯剪輯與策展。

第四場「大數據、使用者:新理論、新模型」由世新大學翁秀琪教授主持。臺灣藝術大學賴祥蔚教授針對大數據趨勢下的收視行為,並分析收視率的計算方式。玄奘大學大眾傳播學系助理教授鄭宇君提出從巨量資料探討虛實整合的使用者研究,討論閱聽人線下與線上行動的整合,透過社交媒體的資料分析,兼顧線上、下資料的收集與分析。本中心副教授陳志成討論資通訊科技發展下,使用「雙重媒體」的影響因素,並找出何種使用者會有較高的機率採行此行為。本中心王小惠副教授則說明QR Code行動廣告訊息呈現對廣告效果之影響,並指出多媒體行動廣告受傳輸速度與處理能力影響,較適合以純文字發視呈現。最後世新大學廣播電影學系副教授江亦瑄則針對學術期刊文獻分析討論研究大數據的文章中,真正使用數據資料的文章多為方法論、趨勢等。


InnoBic「開放資料:機會、挑戰與發展策略」研討會
本校張進福校長表示如何加值政府手上的資料讓全民受惠並創造商機及開發商品,是非常重要的事。其次行政院張善政副院長致詞時表示,台灣在開放資料這個議題已經推動許久,而真的要把開放資料發揮出來,就必須要和跨領域的專業人士合作。


第一場主題為「開放政府、開放資料」由丘昌泰老師主持。財政部財政資訊中心蘇俊榮主任指出政府開放資料的資料顆粒精細度會影響資料開放的價值,亦觸及到資料敏感度問題。衛福部資訊處許明暉處長表示,應將健保資料加密之後釋放給學界使用。政治大學公共行政學系陳敦源教授指出,現在媒體在資訊提供中扮演了重要的角色,但媒體擁有的Agenda-setting power已經慢慢改變,並以議題來區分誰擁有此一力量,因此民主治理的基礎和流程已經完全改變。而國發會資訊處簡宏偉處長表示,國發會目前有訂定先關規範讓各部會去執行,最後,臺灣師範大學地理學系李萬凱教授表示,由於空間資料屬性特殊,一下面臨民間參與更新圖資的要求,產生程序法問題,以及民間圖資如何確保其品質及整合等課題。

第二場主題為開放資料、開放機會,經濟部工業局知識服務組林俊秀副組長表示,欲要國內推動開放資料架構包括國發會負責政府資料的開放以及工業局負責活化應用。Open Data 聯盟會長、天氣風險公司彭啟明總經理則表示,該聯盟目前已開放9000多筆資料並與行政院合作將優先合作開放ETC的資料給大眾使用。周韻采教授則指出,OPEN DATA必須要鑲嵌在我們社會的規範與法律之下,且個資為財產權之一種,故所有權人可授權使用或可建立個資授權平台促進交易。開放文化基金會李柏鋒董事長則認為,開放資料是由政府開放資料資訊公開及另一個就是開放源碼運動,藉由散播資料了解政府促進公共的參與和政策決定面。Big Data 跨域整合聯盟蔣居裕總經理則表示台灣的困境在於資料擁有者和資料使用者之間對於資料內容與取得方法上有認知落差。

匯流政策時論

媒體評論-4G業者糟蹋金城武
4G開台一周年了,媒體報導全台4G用戶近600萬戶,普及率創世界第一,一時間一幅榮景。在我看來,卻是憂心忡忡。回顧歷史,人們對移動時的通訊需求造就了2G輝煌歲月,iPhone的發明帶動了3G的需求,而4G除了速度更快外,還有什麼能讓消費者心動?

電信業者似乎都處在一個集體焦慮的狀態,他們還尚未理解自己創造的4G是什麼?他們知道舊有的營利模式已一去不返,且急切地尋找新的驅動力。有人說電信業者應用力擁抱近來竄起的新媒體,4G的殺手級應用就是影音服務。然而4G開台一年來,電信業者與新媒體的整合似乎繳了白卷。

先從一年前強力放送的金城武4G廣告說起吧,它把我們帶回50年代的懷舊場景,演繹著心則慢的風景。但那是形象廣告,跟4G影音平台毫無聯繫。當廣告從電視媒體下架後,金城武肖像變成了人形立牌,矗立在電信業者的門市,仍然與4G無涉。縱使電信業者網站有設立專區,提供免費手機桌布及保護程式下載,也還停留在3G的哏。

那怎麼將金城武跟4G結合呢?4G作為影音平台,就要能提供巨量或獨家內容,才有競爭優勢。金城武是獨特的,故他的影音商品應可獨家授權在特定4G平台上播映,藉以吸引消費者申購電信服務。心則慢廣告的概念發想則可延伸成以金城武為男主角的迷你影集,獨家在電信業者的4G平台上播映。在廣告末端,金城武在滂沱大雨中離去,為誰呢?消費者只要購買業者的4G服務,下載金城武心則慢專屬APP,即可以行動載具觀賞延伸劇情,正符合政府倡導「一源多用」的數位內容產業精神。

而利用4G網路在雲端提供串流影音服務,亦毋須擔心盜版問題,反可保護智慧財產權,加速影音內容的發展。彈丸之地的香港,卻是有6家電信業者競爭的超級戰區。新進電信業者做了很好突圍的示範:獨家播映有A咖明星拍攝的迷你影集,免費供用戶觀賞,以搶攻市占率。香港案例顯示以獨特內容搭配傳輸服務是發展4G的必經道路。
一年後的今天,王力宏代言的4G廣告也出爐了。遺憾的是,前後兩則4G廣告的操作手法仍停留在傳統媒體思維。相較於金城武廣告還於電信業者的官網上闢有專區,王力宏廣告竟在電信業者官網上以鑲嵌至Youtube影音平台方式,供消費者點閱。電信業者至此似乎全然忘記自己是傳輸平台,應製作專屬APP載入王力宏廣告,才能將流量留置網內。相反地,將廣告放在Youtube上,似乎影射自家頻寬不夠,所以必須存放在Youtube上。此舉完全抹殺了4G的特性。

電信業者缺乏對4G應用的想像,阻斷了自己跟新媒體合體的可能性。如果電信業者不能大幅翻轉既有思維,轉型成為影音平台,其所標榜的4G速度,恐反讓OTT大行其道,最後吞噬了自己。更遑論即將到來的5G,電信業就要成為傳統夕陽產業了!(全文)
( 本文作者:本中心周韻采教授。中時電子報/2015-06-05 )
媒體評論-4G大車拚
4G頻譜又要標售了!國家通訊傳播委員會(NCC)預計今年下半年釋出2600MHz頻段作為行動寬頻業務之用。相較於前年第一波4G頻段的釋出,輿論討論沸沸揚揚,今年的競標卻是內熱外冷,只剩下內行人看門道。

前年底的競標讓鴻海與頂新集團首次跨足電信產業,來勢洶洶,電信界進入新戰國時代。業者歷經一年多的廝殺,各種競爭招式紛紛出籠,甚有遊走管制邊緣的合縱連橫策略,隱隱形成兩大陣營抗衡。再者,擁有頻譜的多寡直接影響到4G服務品質,使得業者間對此次競標作業與管理規則的修正針鋒相對,出現濃濃的火藥味。

回顧前年4G第一次競標,標金從底價359億飆升至1186.5億的決標價格,尤其是1800MHzC5頻段被譽為帝王頻段,標得了256.9億的天價。業者在競標過程中面臨標金不斷上漲,甚而要求NCC祭出降溫機制,停止拍賣。這樣的天價經驗使得本次2600MHz頻段的競標有許多想像空間,立法院甚至調高標金的歲入至400億。不過,我預測天價競標不可能再發生了。原因如下:前年釋出的4G頻段如900MHz1800MHz原為2G頻段,皆有業者使用,只有C5頻段是乾淨立即可布建的。而新釋出的700MHz頻段,在當時技術並未完全成熟,iPhone手機亦未支援,故業者視為兵家必爭之地,標金自然就上漲了。相對的,2600MHz被認為是4G補充頻段,不若900MHz1800MHz頻段重要,且目前僅有零星部分仍有業者使用,業者的移頻或清頻的成本相對較低。業者的選擇多,標金就不會恨天高了。

然而,前年競標除了天價問題外,尚產生了許多後遺症,如業者間互相標到對方的頻段,在缺乏互信基礎下,增加換頻的困難度,甚或發生彼此卡卡的現象。另外,NCC沒有建立一套頻譜交易制度,讓得標業者可以補償原使用業者,促後者盡速清頻,歸給前者。鑑於兩年後的3G執照期滿,該頻段為轉作5G之用,勢必再度競標,我們建議NCC應修正管理規則,避免重蹈前年覆轍。

首先,各電信業者持有頻譜的上限,應以所有持有的頻段為準,而非限制單次競標的額度,如此業者可只競標與自身技術最吻合的頻段,毋須無役不與,除免去業者因持有多頻段而有重複的建置成本外,又可避免人為炒高價格。其次,NCC在計算頻譜底價時,應同時估算並揭露已使用頻段的市場價值,並同時成立頻譜交易平台,協助業者間的補償順利進行,以利清頻。

從消費者的角度看,業者間的競爭廝殺才可創造我們最大的福祉,故如何透過良好規則的設計,使頻譜的標售能讓認真投入的業者健康存活,同時可避免炒短線的業者套利,才是NCC職責所在!(全文)
( 本文作者:本中心周韻采教授。中時電子報/2015-06-19 )
媒體評論-資訊志工幫不上忙?
這星期發生了近年來最大宗的公安事件,數百位年輕人因粉塵爆炸而有中重度燒傷。社會各界除了對傷者及家屬憐惜並慷慨捐輸外,也開始有了究責的聲音。外界也質疑是否醫院後送系統不及,延誤了傷患黃金時間的搶救。

台灣自莫拉克風災始,已有資訊志工以資訊技能參與災害救援。當時灣數位文化協會率先協助地方政府彙整災害通報資訊,之後進駐中央緊急應變中心協助過濾並發布災救資訊,大大紓解民眾渴求災救資訊的焦慮。因此政府面對資訊土石流的襲擊,才得免於潰堤。近來亦有社會企業究心科技協助非營利災救組織建立資訊系統,媒合志工與物資,強化災救時公私協力之效能。

此次災變亦不例外,究心科技詢問衛福部有無志工需求,答案是有需求,但是是有醫護背景的志工,不是一般志工。這使得許多資訊志工傻眼,滿腔熱血不知從何揮灑,更讓人百思不解,為什麼這次資訊救災派不上用場了呢?比較過去的天然災害,此次塵爆事故為單一地點,資訊單純,不會爆量。災救途徑就是送醫,而醫療體系比所有災救系統完整而縝密,醫院間的對接也早有調度中心處理,可快速動員,毋須臨時搭建資訊棧道與其他機構界接。最後,醫療專業度高,即使是接觸病患第一關的檢傷分類,都無法靠資訊志工作訊息篩選,而須要醫護人員處理。

至於資訊志工協助非醫療部分,例如幫家屬填寫表格、申請補助、代購物品及送餐服務等,醫院也表明內部已有志工系統可處理。經過訓練的志工人力,比臨時志工熟悉醫院作業流程,也更能協助醫護人員及家屬,不會造成負擔。故此次災害中,資訊志工徹底讓位了。

若反向思考資訊志工無處發揮的窘境,這正顯示了台灣醫療體系的健全,面對大規模傷患人數時充分展現能量。我們應為醫療體系的完善鼓掌,藉此事件,更了解不同災害所需的災救體系與人力,以達快速救災與降低傷亡目的。若要更超越的思考,資訊志工可在災害發生時至醫院接收病患前做些什麼呢?或許可以開發可供影像上傳的災害通報App,在救護車尚未抵達事故現場前,醫療調度中心即可預估傷患人數、傷害程度而能將傷患送至可做最佳處置的醫院,避免黃金時間的流失或後續轉院的困擾。若發揮得當,資訊志工也會是災救中一塊不可或缺的拼圖。(全文)
( 本文作者:本中心周韻采教授。中時電子報/2015-07-03 )
媒體評論-如何讓民調變準
最近開始進入總統大選加溫期,各個團體紛紛出示民調,預測得票率。然各家民調顯示候選人支持度起起伏伏,看得選民霧煞煞,不禁懷疑民調到底準不準?民調的確是越來越不準了,最大的問題在於民調業者擁有的資料庫與現實中的母體偏差越來越大了。民調公司是以市話號碼為基礎抽樣,但市話普及率逐年下降,尤其年輕族群中不用市話者比比皆是,故有一部分族群是抽不到的,造成樣本誤差,而這樣的情形只會越來越嚴重。

有沒有方法可以解決偏離母體的問題呢?有,找尋新的、有足夠母體代表性的資料庫。是的,手機號碼。台灣的行動通訊普及率超過百分百,且是個人專屬,是比市話更佳的民調資料庫。然而,近年迭有學者或民調業者嘗試做手機民調,卻是困難重重。因個資法禁制,電信公司不能任意轉售用戶的手機號碼,使得民調業者無從建立資料庫,也就無法抽樣做民調。

在這樣限制下,惟有電信業者與民調公司合作,將民調納入前者業務範疇,才有可能解決個資問題。電信業者收集用戶資料時可事先徵求其同意,願做為民調抽樣之用。當然,許多用戶不願平白無故將個資公開,電信公司此時就可提供誘因,例如通話費折扣,讓用戶也能分享經營民調業務的利潤。至於電信公司會不會謹守用戶授權的範圍使用?堅持個資保護的衛道人士或許認為這倡議不可思議,剝奪了民眾隱私權。然個資是一種個人財產,應回歸至個人決定如何使用自身個資,並從授權他人使用上得到回饋;同時付費使用個資的公司也因此產生商業利益,甚而增進社會公益。比起網路公司或社群媒體,我還比較信任電信公司,畢竟它是長期被監管的行業,對遵守規範有高度共識。

同樣缺乏母體代表性的問題亦發生在收視率調查上。NC Nelson公司的樣本早已不符合台灣收視人口之組成,常為人詬病。這問題恰巧在數位電視時代可迎刃而解。由於數位收視戶所有的收視行為,都可透過數位機上盒留存紀錄,只要數位有線電視或IPTV業者定期公布頻道收視率,就可以了解到底哪些頻道是民眾首選,哪些頻道卻是占據平台資源而沒有人看,這對於NCC想要解決電視節目品質不佳的問題,重整平台資源,應有莫大助益。

很多阻擾數位電視業者公布頻道收視率的理由亦是個資或營業機密,這又是混淆視聽。頻道收視率是個別收視戶之收視行為加總的統計數字,非個資法定義的個資亦非營業機密,故NCC應可要求業者按時(月)提供頻道收視率報告,公布在NCC網站上,以利民眾要求業者提供優質節目。
在數位匯流的時代,通訊傳播業者面對新媒體、新平台的競爭不能不轉型,但一轉念則海闊天空!(全文)
( 本文作者:本中心周韻采教授。中時電子報/2015-07-17 )


大數據藍海

大數據在娛樂方面的應用—溫布頓網球賽
溫布頓網球賽(Wimbledon Championship)是世界四大網球公開賽之一,每年吸引上千萬的球迷關注這場賽事。為了維持溫布頓球賽在網球界的重要地位,同時也為了擴增其影響力以及吸引更多的觀眾,主辦單位(All England Club)一直希望能尋求更佳的解決方案來提升其品牌知名度同時帶給球迷更精采且豐富的娛樂體驗,而這也是大數據技術有所發揮的地方。

溫布頓網球賽主辦單位與IBM合作開發了一套強力資訊分析解決方案名為IBM Slam TrackerSlam Tracker採用了IBMSPSS predictive analytics技術,利用過去八年來大滿貫賽事超過四千一百萬筆的資料,進行即時的賽事預測。IBM SPSS predictive engines總共分析了45項關鍵指標,其中包含19項進攻型指標,9項防禦型指標,9項耐力指標以及8項選手模式指標,從中找出對戰雙方克敵制勝的三項關鍵指標,例如2015年的男單決賽由塞爾維亞選手Djokovic對上瑞士選手Federer,系統分析出Djokovic致勝的第ㄧ項關鍵指標是他必須取得超過77%的第一個勝分(如圖十五所示)。除了Slam Tracker之外,IBM也開發了SoftLayer雲端技術,對社群媒體進行監控及分析,此技術可追蹤球員及球迷之間的對話,並收集球迷對於溫布頓賽事的意見及評論,藉由分析這些社群意見,溫布頓主辦單位可即時修正其數位策略,除了帶給球迷更好的賽事體驗之外,也可跟據不同國家球迷的喜好,客製化設計其使用介面,以迎合不同屬性球迷的需求。另外,IBM也開發了名為Watson的雲端彈性儲存技術,此技術可即時監控網頁流量,並在不同儲存媒體之間自動進行資料的搬移,藉此可使影音資料達到近乎無限的使用彈性(scalability),以符合比賽期間廣大球迷對於即時賽事影音資料串流的需求。

圖十五:IBM Slam Tracker所提供的2015年男單決賽對戰致勝關鍵分析

IBM結合其社群(Social)、行動化(Mobility)、智慧分析(Analytics)及雲端運算(Cloud)等四大科技,成功為溫布頓網球賽帶來全新的風貌,因為這項成功,其他著名網球賽事如2015年的法國網球公開賽也開始採用IBM Slam Tracker技術。除了網球賽事之外,這些球員對戰分析技術也慢慢應用於其他領域,如藉由龐大的歷史資料可分析一個企業與其他競爭對手的致勝關鍵因素,讓企業領導者可據此決定企業未來的營運方針,相信未來這些大數據分析技術的應用,會慢慢改變我們未來的生活。
圖十六2015年溫布頓網站所提供的球賽及評論影片

參考文獻

[1]http://www.wimbledon.com/index.html
[2]http://www.telegraph.co.uk/sponsored/sport/rugby-trytracker/10410268/ slamtracker-wimbledon-tennis.html
[3]http://www.avianaglobal.com/category/predictive-analytics/

(本文由本中心數位匯流新創服務團隊提供)
大數據視覺化之企業案例與願景
大數據分析已經成為近年來電腦科學領域之顯學,雖然我們可以藉由電腦自動化處理龐大資料,但最終分析結果經常必需交由人類來進一步解讀,此時「視覺化」(Visualization)工具便扮演著溝通橋樑之重要角色,能夠輔助人類更直覺、快速地觀看與解讀分析結果,使得視覺化成為大數據各項技術挑戰中所不可或缺之一環[7]

為因應大數據時代到來,許多跨國企業皆致力於發展視覺化技術與工具。藍色巨人IBM近幾年推出免費線上視覺化工具Many Eyes [5],提供多樣化表格與圖形工具,讓使用者能夠互動地產生與瀏覽視覺化結果(如圖十七)。此外,IBM更結合Many EyesWatson人工智慧技術,推出線上數據分析網站Watson Analytics [6],以提升個人與企業用戶之數據洞察力與決策正確性。
搜尋引擎巨擘Google旗下的Big Picture團隊[1],多年來投入大數據視覺化技術開發,研究如何讓複雜龐大之數據容易被理解、使用、甚至有趣。基於Google Play Music使用者之音樂資料庫,該團隊統計分析其中專輯、作者、發行日期、音樂類型、…等等資訊,從1950年代開始,將不同時間發行專輯之受歡迎程度,視覺化成一個音樂時間線圖形[2]Big Picture團隊也利用YouTube之影片資料庫,統計分析美國受歡迎的影片趨勢,使用者可以將不同城市、地區、年齡、以及性別之影片喜好,互動地視覺化在美國地圖上。其他視覺化成功案例,讀者可以進一步參閱該團隊網站[1]

圖十七、應用IBM Many Eyes產生之視覺化範例。資料來源為99~103學年度年度由作者開設之【機率與統計】課程,所使用之視覺化方式為「弦圖」(Chord Plot)。
除此之外,軟體服務指標企業Microsoft長時間鑽研多媒體與人機互動領域,更應用相關技術建立一套互動式系統HoloDesk [4],讓使用者不需要透過任何穿戴或輸入裝置,便可以用手即時與虛擬物體或視覺化結果進行互動。2014年四月,Microsoft展示了立體視覺化平台Holograph [8],使用者能夠透過此系統平台,運用各項直覺化互動工具,快速探索與處理複雜的多維度「時空資料」(Spatiotemporal Data),並藉此讓使用者更容易一併瞭解資料於空間當中的變化,以及於時間軸上的演進。

綜合而論,視覺化技術為大數據分析的重要環節之一。根據調查研究報告[9]指出,使用視覺化工具輔助大數據分析之企業,能夠有效提升各種層面之表現,包含:減少決策時間、增加決策準確率、降低營運成本、…等等。因此可以預見未來產業界將全方位地開發與應用視覺化技術,不僅僅為該企業增加短期獲利,更是為爭奪大數據時代霸主之位做好萬全準備。

參考資料
[1]Google. Big Picture Group, June 2015. http://research.google.com/bigpicture/.
[2]Google. Music Timeline, June 2015. http://research.google.com/bigpicture/music/.
[3]Google. YouTube Trends Map, June 2015. http://www.youtube.com/trendsmap/.
[4]Otmar Hilliges, David Kim, Shahram Izadi, Malte Weiss, and Andrew D. Wilson. HoloDesk: Direct 3D Interactions with a Situated See-Through Display. Proceedings of ACM CHI 2012, May 2012, pp. 2421-2430.
[5]IBM. Many Eyes, June 2015. http://www.ibm.com/software/analytics/many-eyes/.
[6]IBM. Watson Analytics, June 2015. http://www.ibm.com/analytics/watson-analytics/
[7]H. V. Jagadish, Johannes Gehrke, Alexandros Labrinidis, Yannis Papakonstantinou, Jignesh M. Patel, Raghu Ramakrishnan, and Cyrus Shahabi. Big Data and Its Technical Challenges. Communications of the ACM, Vol. 57, No. 7, July 2014, pp. 86-94.
[8]Microsoft Research. Holograph: 3-D Spatiotemporal Interactive Data Visualization, April 2014. http://research.microsoft.com/apps/video/default.aspx?id=211209&r=1.
[9]Nathaniel Rowe. Seeing the Big Picture: Visualization for Big Data. Research Report, Aberdeen Group, May 2013. http://www.aberdeen.com/research/8466/ai-big-data-visualization-analytics/content.aspx