觀點

亞太垃圾郵件現形記

2005 / 01 / 31
高銘鍾
亞太垃圾郵件現形記

政治文化的差別
Clearswift於 2004年1月所提出的報告指出,若將全球的垃圾郵件進行分類,則其前三名分別為:健康醫療、色情及借貸理財類;Commtoch也於2004年6月公佈類似的調查結果,其前三名分別為:藥品、借貸、器官增大相關廣告。但若僅調查亞太地區,則會發現其結果有些不同,據ASRC亞太垃圾信研究中心指出,亞太地區垃圾郵件前三名為:減重美容類、Sex色情類、其他廣告;Brightmail的調查結果在亞太地區垃圾郵件最大宗為色情類、其次為投資類,再者則為減重美容相關類。在這些調查報告或許因定義或採樣的不同,造成各個調查結果有所出入,但我們可以從這些數據看出其有共同的趨勢,並且亞太地區的垃圾郵件類別可能存在著其地域性的差異。

2003年12月,SBL Database發佈統計顯示,前十大垃圾郵件發送國,中國僅次於美國,為世界第二的垃圾郵件發送國;根據2004年8月份,網路安全公司Sophos也針對垃圾郵件發送國進行了一份統計,其中全球42.53%的垃圾郵件來自美國,為垃圾郵件最大宗來源;排名第二的南韓,佔了15.42%;另外11.62%來自中國大陸及香港,名列第三。在表一及表二中,我們更可以直接看到中國逐漸成為垃圾信發送來源的大宗。

僅管全球多家研究單位已陸續提出垃圾郵件的調查報告,卻都無法顯示中國真實垃圾郵件的類別分佈概況。近年來中國政府逐漸意識到垃圾郵件的危害,但因其國情文化的特殊性,在於垃圾郵件的過濾觀點,特別著重於政治內容的信件,中國公安部在2004年2月就明令要加強取締法輪功及色情郵件。我們觀察數十家於中國積極推廣垃圾郵件防堵工具的廠商,諸如:Messagesoft、MgInfotech、JULY CHINA、EQ Manager等公司,他們產品訴求都特別強調能過濾反動、法輪功或是經過公安局認可的宣傳,而此一特性僅在中國獨見。若非十分了解中國文化,或是由中國當地所開發出來的垃圾郵件防堵工具,一般由歐美國家開發的產品都容易忽略此一特性,這不但形成全球垃圾郵件分類調查的盲點,直接引進中國使用也不易達成良好攔截效果。

Anti-SPAM之王道 內容過濾技術
Clearswift在2004年9月的報告中指出,中文、韓文或日語等雙位元語系國家,由雙位元組字元所撰寫的垃圾郵件數量正急速增加中,報告中還指出雙位元字元撰寫垃圾郵件,更能有效的躲過垃圾郵件篩檢程式,所以亞太區垃圾郵件發送者便更賣力地大量發送,自6月份至8月份,雙位元字元垃圾郵件就成長了5%。 多數垃圾郵件有許多客觀特徵可循,但由於SMTP通訊協定較為自由鬆散,也可能有垃圾郵件其特徵完全符合正常郵件的特性,特別是網路釣魚(Phishing)等詐騙郵件;抑或相對的,某些由Webmail或以自動方式送出的信,反而具有垃圾郵件的特徵。在這樣無客觀條件能捕捉的情況下,借重內容過濾是一個不錯的解決之道。亞太地區為雙位元組字元集的最大使用其發源地,常見的雙位元組字元集有:繁體中文、簡體中文、日文、韓文等。這些雙位元組字元集使用於垃圾郵件時,除了可能造成部份收件者易發生郵件亂碼的情況外,它還嚴重影響著不周全的雙位元字元解碼垃圾郵件過濾技術,而解碼後產生亂碼的結果,就連垃圾郵件自動分類、關鍵字資料庫分析或其它涉及內容過濾(Content Filter)的攔截技術也大受考驗。

內容過濾的攔截技術常見於許多垃圾郵件防堵工具之中,透過內容過濾技術,才能進行垃圾郵件類別的自動分類、統計、搜索郵件內文,而內容過濾的應用,還可用於偵測出不明來源的垃圾郵件,甚至是目前眾所關注的詐騙郵件(phishing),亦可透過內容比對資料庫而將之挑出,甚至將其繩之以法。至於中國的特殊文化考量,若要特別防堵信件中帶有反動意識、法輪功等字眼,則需運用內容過濾技術,所以要解決全球垃圾信的問題,也不得不重視雙位元字所帶來之影響。

雙位元組字元集及語系編碼
電腦在轉譯雙位元字並於畫面繪出雙位元組字元集時,必須有參考的對應表。這些對應表分別為:Big5(繁體中文);GB2312、GB18030、HZ(簡體中文);Shift-JIS、EUC(日文)等。例如:「我」對應Big5的內碼表中為「A7DA」,A7、DA皆為16進位表示,換成10進位則為167,218,亦符合ANSI標準。

所以當電腦要去看一封信的內容時,遇到雙位元字,它就必須有參照表,一個防堵垃圾郵件的工具在遇到多種多國語言情況時,它的參考表就必須要能做到完備且不錯亂的對應;再者繁體中文、簡體中文及日文漢字都有可能在電腦的畫面上繪出同一個字型,但他們對應到個別語系的參考表卻不一定在同一個參考位置,例如:EUC-JP的0x3A4B與BIG5的0x456C都能顯示出「高」這個字型。

除了語系及字組的問題,另一個課題則在於如何將字組並合起來達到高效能並正確處理的問題。「這是一個範例!」如果對應的Big5碼,由電腦的觀點看到的Code Number會是「B36F AC4F A440 ADD3 BD64 A8D2 21」,如果忽然因人為的錯誤失去某個byte,或是分揀配對錯誤就會產生配對錯誤(incompatible)形成亂碼。此外,多封垃圾郵件通常帶有大量文字,在處理大量文字時,效能也成為一個重要議題。

亞太地區的語言也有其文化特性,如「下雨天留客天留我不留」,就可因對句子的認知不同而有「下雨天留客,天留我不留!」及「下雨天留客,天留我不留!」等多種不同解釋,若對該語言不夠熟稔,進行過濾判斷、分揀時便易出現荒謬誤判。最後是開發環境及測試問題,要處理雙位元字須仰賴許多的經驗及技術,但開發環境或是測試環境若非在使用雙位元環境,則可能會出現許多未知狀況,而導致過濾垃圾郵件時發生大量誤判。

立法防制 期望水道渠成
Commtouch公司於2004年5月指出,在其研究樣本中,71%的垃圾郵件內容所提供的購物或消費連結皆指向中國的網頁主機;而在6月份的報告中,連向中國的網頁主機的比例又持續上升為73.58%。但實際上這些郵件由美國IP發送的垃圾郵件即佔了60%以上,其目的不外乎挑戰及躲避美國的反垃圾郵件(Anti-spam)相關法律;英國Spamhaus Project公司表示,由於法律相對較寬鬆,全球垃圾郵件發送基地逐漸往中國移動。

法律,可視為政府正式面對垃圾郵件的決心。在亞太地區,除了日本、韓國及澳大利亞較早有法律方面的明確規範外,其他如中國、台灣、香港等地,相關立法的反應速度較慢。中國方面,自2002年起就陸續由民間研擬垃圾郵件防範議題,2003年底由「中國互連網協會」成立「中國反垃圾郵件協調機構」,該機構便開始著手黑名單及Open Relay封鎖主機的調查及研究,至2004年2月公安會才正式對外宣佈正視垃圾郵件議題;就台灣而言,NCC籌備處與交通部共同研礙的「濫發商業電子郵件管理條例草案」,僅有草案,尚未實施;香港方面則仍在進行全面評估。

亞太地區垃圾郵件普遍存在一些政治或文化方面的議題。要克服雙位元組字元集的垃圾信過濾問題,除了須對技術與開發環境進行改善外,對於文化及語意邏輯的認知,也將成為突破雙位元垃圾郵件過濾之瓶頸的重要關鍵。而法律的議題,看似對垃圾郵件防堵無立即成效,但也已逐漸受到各國的重視,尤其是亞太地區防堵垃圾郵件法律尚未完備的國家。美國FTC(聯邦貿易委員會)等世界各國的政府代表在今年10月份於倫敦開會討論遏止垃圾郵件相關議題,法律專家也樂見FTC參與訂定的聯合立法,如此,便可以摘去垃圾郵件發送者以國界避開法律責任的保護傘。隨著世界性防堵垃圾郵件相關法律成熟,預期以法律來防堵垃圾郵件,在亞太地區仍有很大進步空間。

本文作者高銘鍾/現任ASRC亞太垃圾信研究中心主任