https://newera17031.activehosted.com/index.php?action=social&chash=0245952ecff55018e2a459517fdb40e3.2287&nosocial=1
https://newera17031.activehosted.com/index.php?action=social&chash=0245952ecff55018e2a459517fdb40e3.2287&nosocial=1

觀點

利用地理資訊系統拼出散落的真相

2009 / 07 / 16
洪肇蔚
利用地理資訊系統拼出散落的真相
資訊與地理位置有關時,將牽涉隱私及安全議題!這時,圖資結合資安的應用就是非常重要的課題。

  Web2.0時代的到來,使電子地圖的應用瞬間如潮水般的湧至。隨著Google map API的開放,並整合混搭(MashUp)技術更使電子地圖的應用一發不可收拾。地圖日記、Urmap、Taipei Walker幾個地圖資訊的玩法更在年輕人的口語中不斷的散播。
 
  去年第28屆科技顧問會議,以智慧台灣為主題,會議中中華電信董事長呂學錦就明白指出:「資訊與地理位置有關時,將牽涉隱私及安全議題!」這時,圖資結合資訊安全的應用就是非常重要的課題。

  地理資訊系統(GIS)是一個圖資運用的解決方案,現在已被廣泛地運用於各式交通流量限制、消費者行為和公共衛生等議題(請見P.80「地理資訊初體驗」),地圖化的展示資訊使問題更淺顯易懂的能力也是有目共睹的。本文將介紹GIS資料處理流程及步驟,同時提供統計理論中常用的迴歸方法並投入解釋變數,例如以IP位址及節日解釋後門及木馬程式放置的意義。最後,將找出最適合的迴歸線並解釋各變數間的影響能力以找出網路犯罪組織的可能性及目的。

利用GIS追尋網路犯罪的足跡

  近來報導中常提到中國軍方組織駭客,針對台灣各級政府單位網站,及大型民間企業都有「到此一遊」的記錄。如此來無影去無蹤,看似散亂如雪片般的線索,是否能有系統的從被竊的單位、資料及數千個受駭IP等時間、空間及人為變數中找出某種程度的相關,同時加以分析並不容易。這時,GIS系統的運用將順利的派上用場。

1. 資料處理流程及步驟

  建置GIS系統的首要課題便是做初步資料的收集和匯入,所收集的資料型態可以區分為空間資料(spatial data)和屬性資料(attribute data)兩類。在空間資料的輸入方面,主要是採用紙圖數化的方式。所謂數化,是指把一般紙圖及文字資料轉化成電腦數值檔案的步驟。對於紙圖,一般使用「數化板點圖數化」和「螢幕數化」2種方式。至於文字資料,則多採用鍵盤鍵入的方式。而在紙圖數化前,除了紙圖清繪工作以外,投影、座標系統和控制點的選定也相當重要。空間資料和屬性資料數化建檔完成以後,就可以開始進行圖層的疊合和查詢的工作。所謂疊合是指把至少2張以上的圖層加以套疊,並進行分析處理的程序,但在疊合處理前需要先確認想要疊合的圖層的比例尺、座標系統和解析度等是否一致,以免影響所得到的套疊圖層的精確度。

2. 模型建立

  以網路犯罪的追查而言,假設駭客團體有系統地透過社交工程方式,如:寄送惡意郵件、設立釣魚網站傳遞含有惡意軟體的動作,來引誘企業學校及政府單位以便使用者開啟含有後門程式的附檔及連結偷取電腦上的敏感資料。根據觀測,在特定月份或含有政治意義的節日時,特定單位及企業都會收到針對性的惡意的郵件,這些郵件可能是政治、情色、八卦或生活小品類的文章來引誘使用者開啟,郵件中夾帶著木馬及後門程式。因此,透過這些特殊郵件來關聯網路犯罪組織的真正意圖是極有依據和價值。依據上述,我們於模型建立前推斷如下可能性:

1. 駭客寄送特定後門程式是有針對性的。
2. 特定後門程式只被用於特定單位與企業蒐集資料。

3. 樣本篩選機制

  利用GIS系統所收集獲得的大量資訊中,常常參雜著遭非原生性感染的電腦設備,所以,我們需先透過「樣本篩選」機制,已確保母體統計量不被特定誤差量大之樣本所影響。樣本篩選主要先去除部分變異較大的因子,也就是誤差項。樣本篩選主要條件可區分成,受害端電腦所在區位密集度和人為的不當擴散,例如受駭電腦數密集度每平方公里是否及3台、本來主要受害端為X單位之電腦,Y單位亦發現單一樣本,經查為X單位某人攜帶該個人電腦到Y單位,於Y單位被偵測感染等諸如上例非原生性感染,最好可以將其剔除,以避免非必要性之人為
誤差產生。

4. 迴歸分析決策

  經過樣本篩選機制後的剩餘資料,我們將透過迴歸分析決策的模型試著建立一母體迴歸線,以說明網路犯罪組織的特定後門程式,與各解釋變數之間的關係。迴歸分析的處理程序是選取被解釋變數與解釋變數、建立相關矩陣、淘汰解釋力過低的被解釋變數以及計算各被解釋變數的權重值,最後將獲得解釋變數與被解釋變數之間的母體迴歸線。所得到的各被解釋變數的權重值就是影響解釋變數的能力,數值越高表示該解釋變數影響被解釋變數的能力越強。

  網路犯罪組織放置惡意程式之目的主要為偷取特定單位之機敏資料,本文可以合理的推測惡意程式的植入時間點將是有節日、月份性,如:10/10雙十國慶;另外,本文也可以推斷當有國際事件或國內重大事件發生、政治局勢緊張時,網路犯罪組織假借各種手段植入後門以方便竊取情報,因此惡意程式被放置的時間與該期間內所發生之政治事件也將有一定的相依性。其他可做為解釋變數的因素亦包括弱點修補程式發佈的時間天數(如:MS08-0XX)等,都能成為良好的被解釋變數。因此,我們可以撰寫解釋與被解釋變數間的關連性構成下式:

y= α+β0χ0+β1χ1+β2D1+β3D2(公式1)
y:被解釋變數(惡意程式一號感染之數量)
α:固定係數
β0、β1、β2、β3:母體參數
χ0:解釋變數(弱點修補程式發佈的時間天數)
χ1:解釋變數(近期政治事件發生之天數)
D1:解釋變數(單位及企業)
D2:解釋變數(節日/月份)

  上述範例假設我們發現後門程式一號y可以被解釋變數χ0(弱點修補程式發佈的時間天數)、χ1(近期政治事件發生之天數)、D1(單位及企業)及D2(節日/月份)所解釋,被解釋變數之值我們套入代數依次為β0(A)、β1(B)、β2(C)及 β3(D)固定變數的值α(E),所以我們可以將變數值套入方程式中可以描繪出此方程式為:

y= E+Αχ0+Βχ1+CD1+DD2(公式2)

  從式(2)中,我們發覺每增加一單位的 ,整體迴歸線解釋y所存在的意義就增加A個單位。也就是說,如果一個新的弱點或入侵手法被公佈,每增加一天,後門程式一號增加的數量受影響的程度就是A倍左右,同理印證於χ1的係數B。接著我們探討虛擬變數D1(單位及企業)、D2(節日/月份)對後門程式一號y的解釋能力。使用虛擬變數的理由是因為諸如單位企業此種名目變數不能量化的緣故,故我們需利用虛擬變數的特性加以處理。假設我們懷疑惡意程式y的設計是有目標性的針對某單位N0.1,所以我們可以將虛擬變數表示成D1{1 , N o . 10其他單位 ,當D1=1表示當單位為N0.1時,整體迴歸線解釋y的能力;D1=0時則表示當單位為其他單位時,整體迴歸線解釋y的能力。當然,係數的值產生是隨解釋變數變動的,不同解釋變數也會產生不同係數值。本例我們舉係數值C為正,表示當D1=1時,對y是有解釋能力的。相同的解釋亦可套用於變數D2;因此,迴歸式可以條列如下:

y= E +Α χ0+Β χ1+CD 1+DD 2 , D 1{1 , N o . 10其他單位、 D2{1, 特定月份(例如十月)0其他月份(結果式3)

  最終結果式(3)即是根據現有SQL資料中所產生的,係數應經過P<0.05的驗證。所得出的最佳式可以用來解釋後門程式一號的生成因素,搭配虛擬變數的應用,我們甚至能較準確的說明該惡意程式所設定的目標與收集特定資訊的意圖為何。

結論

  地理資訊系統應用在拼圖網路犯罪組織的意圖有它的可行性,如果能配合GIS資料的更新和樣本數的增加,並視情形調整權重值的分配,相信未來評選出的迴歸式將會更加精準,更能對推測網路犯罪組織的目的提出合理的解釋。期望藉由地理資訊系統建置的經驗,找出事件背後更多的意涵,同時提供對於找尋網路犯罪組織經驗不同的啟發。

地理資訊初體驗

  「1854年,倫敦爆發一種不明的流行病,病人上吐下瀉,重者甚而致死。整個疫情蔓延非常凶猛,短短10天就有500人致病喪生。專家試圖從各種徵兆來找出致病原因,卻苦無進展。在危急的狀態下,John Snow醫生拿出倫敦的市街圖,將一個個病患的住家位置標示在地圖上,並就病患的分佈情形進行觀察。他發現大部分病例呈現集中分佈的型態。再針對當地的環境進一步分析,他發現中心點附近有一口井,大部分的病患就住在這口井周圍250碼的範圍內。進一步的分析與研究,讓他懷疑致病元兇就是這口井。Snow醫師因而建議附近居民停止取用這口井的水。就在停止取用後的第3天,再也沒有新的病例發生,當地的霍亂疫情也逐漸平息。」這是一個廣泛流傳在醫療地理及公共衛生學界的案例。看完這個故事之後,你有什麼感想呢?

  生活中我們經常會面臨和位置及分布有關的問題。例如,公共衛生專家關心:「禽流感發生在哪些地區?可能往哪裡擴散?」;大型連鎖店的行銷推廣人員關心:「什麼地方的區位條件較佳?市場潛力比較大?」這類問題的回答,往往需要和位置及空間分布有關的資訊,也就是所謂的空間資訊。空間資訊的處理過程涵蓋資料的收集、管理、分析、展示,這些工作分別使用不同的工具。地理資訊系統(GIS)就是一套可以幫助我們處理地理資料和協助空間決策的電腦系統,具備地理資料的輸入、處理、分析及輸出等功能。隨著電腦技術的日益精進,GIS其實已經無聲無息地進入到我們生活的世界。

  便利商店龍頭7-11很早便知利用GIS系統,大幅提昇銷售業績。最有名的例子便是某家位於海邊的門市,常常發現在冬天時,包子與雨衣的銷量會同時上升。經總部人員分析後,發現因為伴隨東北季風來襲,魚群會跟著南下。但因為地形關係,雨量也會增加。釣客一早經過岸邊的超市,便會購買預定早餐包子及輕便雨衣防失。經過分析後,門市人員減少鮮食如御飯糰的採購,而增加熱食如包子或關東煮等的數量,並將之放置在店內醒目的地方,同時增加輕便雨衣的採購量。透過系統的應用,使其業績大幅提升了10%~15%。