網頁訪問行為分析

  • 網頁訪問行為分析已關閉評論
  • A+
所屬分類:網站建設公司

網頁訪問行為分析訪問網頁是網絡用戶頻繁產生的網絡活動, 這些網頁訪問活動反映了用戶使用互聯網的情況, 它們構成了特定的網頁訪問行為。網頁訪問行為表現為網絡用戶訪問網頁的活動及其動態變化規律, 可以按照訪問的網頁內容對其進行分類, 而網頁訪問行為的類型就隱藏在訪問網頁時形成的網絡數據流中。

網頁表現為一個或多個HTML (超文本標記語言) 文件, HTML是網頁內容架構的基礎, 它將文本、圖形、語音、視頻、郵件等資源包羅其中, 讓用戶能夠便捷地實現互聯網訪問。在W3C (萬維網聯盟) 于2014年10月公開發布HTML5標準 (HTML第5版)后, 更多的應用被移植到網頁上, 尤其是在移動互聯網領域, 基于網頁的移動終端APP更是得到了快速的發展, 這促使網頁數量和網頁訪問活動數量迅猛增加。

網站是網頁運行的載體, 它已成為互聯網最關鍵的應用之一。中國互聯網絡信息中心 (CNNIC) 于2017年1月發布《第39次中國互聯網絡發展狀況統計報告》, 該報告指出, 截止2017年12月, 我國的網站數量約為533余萬個, 年增長10.6%, 而網頁的數量更是驚人, 已超過2600億個, 年增長10.3%。

與日俱增的網頁訪問活動構成了重要的用戶上網行為大數據, 它反映了用戶的常用互聯網內容使用情況, 對網頁訪問行為進行有效的分析, 可以為網絡管理提供科學的依據, 還可以為網絡行為的安全審計提供數據來源。分析網頁訪問行為的方法主要有以下幾個方面:以網頁訪問日志為基礎分析用戶瀏覽行為習慣、挖掘分析網站的運行日志文件發現用戶訪問行為特征和潛在規律、抽取網頁的HTML源代碼特征進行分析。目前還缺乏通過訪問網頁時產生的網絡數據流分析網頁訪問行為的方法, 也沒有通用的分析架構。

本文建立了一種網頁訪問行為分析的架構, 該架構以網絡數據流為數據基礎, 通過提取網頁數據包的關鍵特征信息, 構建反映用戶真實網頁訪問活動的網頁訪問行為數據, 同時, 分析網頁訪問行為的記錄數據, 識別網頁訪問行為的類型, 從而發現網絡用戶訪問網頁的活動規律。

1 分析架構

本文以網絡用戶訪問網頁時產生的網絡數據流為數據基礎, 分析網頁訪問行為信息, 目的在于識別出用戶訪問網頁的行為類型, 其分析架構如圖1所示。該架構由5個操作模塊和2個數據庫組成, 前者包含網絡數據捕獲模塊、網頁特征抽取模塊、網頁訪問行為構建模塊、網頁訪問行為匹配模塊和網頁訪問行為學習模塊, 后者包含網頁訪問行為特征庫和網頁訪問行為記錄庫。

整個架構的運行流程和數據庫含義將在下面的小節中進行介紹。

1.1 網絡數據捕獲

網絡數據捕獲模塊獲取網絡數據流, 并篩選出用于網頁通信的網絡數據包。針對個人用戶訪問網頁的行為分析, 需要捕獲用戶本機的網頁數據流。針對群體用戶訪問網頁的行為分析, 可以在用戶所在計算機網絡的關鍵網絡設備上設置鏡像端口, 從該端口接入網絡數據捕獲模塊, 并將捕獲模式設置為混雜模式, 即可獲取該網絡內所有的網頁數據流量。網絡用戶訪問網頁時, 用戶客戶端和Web服務器之間采用應用層協議HTTP (超文本傳輸協議) 進行通信, Web服務器的默認端口號為80, 有些也會設置為8080。在捕獲報文時, 可以通過判別這些端口號, 來篩選出用于傳輸網頁的網絡數據包。

1.2 網頁特征抽取

網頁特征抽取模塊對網頁數據包進行預處理, 將用于建立網頁傳輸連接、斷開網頁傳輸連接、重復傳輸請求等網絡數據包剔除, 只留下傳輸實際網頁內容的網頁數據包, 并抽取出這些網頁數據包的關鍵特征信息。網頁數據包里既含有網絡層和傳輸層中的源/目的IP地址、包長度、TTL、包頭校驗和、協議類型、源/目的端口號等數據流特征信息, 也含有HTTP協議信息, 例如:協議版本號、語言類型、瀏覽器類型、URL、內容創建時間、主體對象類型、主體長度、標題內容等。在抽取網頁數據包的特征信息時, 必須考慮反映一個網頁頁面的主要特征, 這些特征需要同時表達網頁內容的關鍵信息和網絡用戶訪問網頁的活動信息, 前者包含URL、標題內容等, 后者包含訪問時間、瀏覽器類型等。

1.3 網頁訪問行為構建

網頁訪問行為構建模塊以網頁特征為基礎, 實時構建出網絡用戶瀏覽網頁的行為數據, 同時將構建的網頁訪問行為存入網頁訪問行為記錄數據庫。網頁訪問行為反映了用戶訪問網頁的活動及其動態變化的規律, 一個網頁訪問行為可能由用戶訪問一個或多個網頁來實現。一個網頁中可以嵌入豐富的文本、圖片、多媒體、其他頁面等信息, 所以從數據流傳輸的角度來看, 為了訪問一個網頁頁面, 一般需要在客戶端和Web服務器之間傳輸多個網頁數據包。構建網頁訪問行為就是要采用一種適合數據流分析的數學方法, 對大量的網頁數據包進行分析, 從中發現網頁數據包之間的關聯, 并識別其傳輸規律。最后提取出屬于同一個網頁訪問活動的網頁數據包的關鍵特征信息, 并采用數學方法構建網頁訪問行為。

1.4 網頁訪問行為匹配

網頁訪問行為匹配模塊以網頁訪問行為特征庫為基礎, 識別網絡用戶的網頁訪問行為類型, 并將不能識別的網頁訪問行為通知網絡管理員, 由網絡管理員進行標注或由網頁訪問行為學習模塊分析后加入網頁訪問行為特征庫。網頁訪問行為構建模塊形成的網頁訪問行為傳至本模塊后, 采用高效、精確的特征匹配方法, 將每條網頁訪問行為信息的關鍵特征與網頁訪問行為特征庫的記錄進行匹配操作, 如果特征庫中有滿足匹配閾值的記錄, 則采用該記錄定義的網頁訪問行為類型對用戶的訪問活動進行標記, 否則標記為可疑行為, 并通知網絡管理員進行標注。

1.5 網頁訪問行為學習

網頁訪問行為學習模塊采用特定的分析方法, 對不能匹配的網頁訪問行為進行數據分析, 以期識別出未知的網頁訪問行為類型。網絡用戶的大規模增長和基于網頁的新應用的不斷涌現, 導致網頁訪問行為的類型也在不斷變化, 同時也使得一些未知的網頁訪問行為不能被網頁訪問行為特征庫中的記錄所識別。網頁訪問用戶的歷史訪問記錄都存儲在網頁訪問行為記錄數據庫中, 該數據庫中蘊藏了所有的網頁訪問活動信息, 通過構建合適的機器學習方法, 可以從這些歷史記錄中挖掘出特定的網頁訪問行為類型信息。當識別出新的網頁訪問行為類型后, 將其存入網頁訪問行為特征庫中, 以供網頁訪問行為匹配模塊識別網頁訪問活動信息。

1.6 網頁訪問行為特征庫

網頁訪問行為特征庫存儲網頁行為類型的特征數據, 其數據為網頁訪問行為匹配模塊識別用戶訪問網頁的行為類型提供依據。該庫中的每條記錄都映射了一個網頁訪問行為類型, 它包含了用戶訪問網頁活動的規律信息, 其初始數據來自經典的網頁訪問行為特征。為了獲取經典的網頁訪問行為特征數據, 可以搭建精心設置的網絡環境, 禁止額外網絡活動的發生, 讓用戶按照特定行為類型訪問設置的網頁, 模擬真實的網頁訪問行為, 通過上述網絡數據捕獲、網頁特征抽取和網頁訪問行為構建功能捕獲網頁訪問行為特征數據, 并為這些特征數據標注網頁訪問行為類型。另外, 網頁訪問行為學習模塊識別出的網頁訪問行為類型, 也存入網頁訪問行為特征庫, 這為發現網頁訪問行為類型提供了動態性。

1.7 網頁訪問行為記錄庫

網頁訪問行為記錄數據庫存儲用戶的網頁訪問行為的歷史信息, 它包含了所有發生過的網頁訪問行為。該庫中的數據全部來自網頁訪問行為構建模塊產生的網頁訪問行為, 其每條記錄都包含了一個網頁訪問行為的特征信息, 但該信息中并沒有具體的行為類型。網頁訪問行為記錄數據完整體現了網絡用戶訪問網頁活動的信息, 這些信息都是按照時間序列順序存儲, 可以為網頁訪問行為的安全審計提供數據來源。網頁訪問行為學習模塊采用特定的方法對這些數據進行分析, 可以發現里面隱藏的用戶訪問網頁的規律, 以便為識別新型的網頁訪問行為提供依據。

2 結論

網絡用戶通過訪問網頁實現許多常見的網絡活動, 識別海量網頁訪問活動中的行為類型, 可以發現網絡用戶訪問網頁活動的一定規律。本文構建的網頁訪問行為分析架構既含有網頁傳輸數據處理的功能模塊, 也含有網頁訪問行為特征和歷史數據的存儲數據庫。本架構從傳輸網頁的網絡數據流中, 抽取出能夠反映網頁訪問活動的關鍵特征信息, 以此構建網頁訪問行為。同時, 一方面通過已有的網頁訪問特征識別用戶訪問網頁的行為類型, 另一方面通過網頁訪問的歷史記錄信息生成新的網頁訪問行為類型, 為網頁訪問行為類型的識別提供了一種動態分析的思路。