2012年12月28日 星期五

分析領域的2012年度代表名詞:Big Data

最近幾年到了年尾的時候,電視上都會出現年度代表字的新聞。以Analytics這個領域而言,2012的代表名詞顯然非「Big Data」莫屬。這個名詞雖然不是在2012年第一次出現,卻在這一年一下子就變得大紅大紫。上圖是Google Trends提供的搜尋趨勢,可以看到網路上搜尋 "Big Data" 的熱門度在2012年就有明顯的三級跳(這不單是個慣用語而已,是真的有三級),所以今年的最後一則也就用這個時髦名詞做ending。

由於失業率連年攀升,而我的年紀也越來越大,所以我持續關注著Big Data的發展,希望它可以變成我未來的長期飯票。到目前為止,我個人認為Big Data仍然停留在資訊大廠和顧問公司的炒作(也就是英文的"hype"這個字)階段,然而我也很怕我的判斷失準。況且我對常常聽到的相關技術名詞Hadoop、MapReduce都是「只聞其名,不知其詳」,工作上也一直沒有機會接觸到實際的Big Data與應用,因此難免會擔心自己是否跟不上這一股潮流。

老東家Teradata的Bill Franks寫了一本名為《Taming the Big Data Tidal Wave: Finding Opportunities in Huge Data Streams with Advanced Analytics》的書,成為Wiley and SAS商業系列書籍的2012新作之一,我在11月買到了這本書。儘管Teradata和SAS都是推動Big Data的資訊大廠,這本書對Big Data的看法卻相當務實,讓我有些意外,不過也驗證了我的看法。

這本書的第1章裡有一節的標題是「How Is Big Data More of the Same?」,直接就點出 "It is an example where the hype is going beyond the reality."。當然,現在的Big Data產生的速度更快,資料量更為巨大,而且除了資料庫裡的結構性資料,還有更多的非結構性資料(網路文章、社交網站的留言、音樂、影片等)。但是,現在資料倉儲裡面稀鬆平常的CDR、POS資料,在二十年不也是遙不可及的資料儲存與分析之夢?Bill Franks指出:
Big data really isn't going to change what analytic professionals are trying to do or why they are doing it.  Even as some begin to define themselves as data scientists, rather than analysts, the goals and objectives are the same.  Certainly the problems addressed will evolve with big data, just as they have always evolved.  But at the end of the day, analysts and data scientists will simply be exploring new and unthinkably large data sets to uncover valuable trends and patterns as they have always done.
 我們現在認為Big Data是個重大的挑戰,並不是因為它是個全新的東西,而是因為還有很多儲存與分析的技術尚未克服。相信兩三年後,所謂的Big Data就會跟時下的資料倉儲一樣平常,屆時相關的商業應用也就會浮現。由於這本書一開始就這樣定調,所以除了第3、4、6章觸及了目前所謂Big Data的資料面與技術面,其它各章節其實談的都是Big Data這個名詞出現之前就有的議題。想要從這本書了解Big Data的新潮流、新趨勢、新技術的人也許會失望,但對我來說,這本書卻讓我心安了許多。

以下兩個部落格的文章連結,雖然都使用了Big Data這個時髦名詞,內容也是建議大家先從小處著手。有興趣可以看看他們怎麼說:
"Making Data Big and Smart with Data Intelligence"
"Staring Small, Getting Big Data" 

期待2013年的年底時,我們談論和應用Big Data就跟現在談論和應用Data Warehouse一樣不足為奇。

沒有留言: