表示網路流量的主要方式包括:

發布時間:2024-05-08 閱讀:3724

在安全領域,我們發現資料預處理的很多步驟可以在不同的場景下相互引用,甚至可以直接復用。 例如,對於與加密流量相關的資料,當演算法工程師獲取一批加密流量的PCAP資料包時,無論他們面臨的任務是加密流量的準確識別、異常檢測,還是惡意軟體檢測,PCAP包最原始的資料預處理思想是相似的,比如收集流級特徵, 資料包級功能等,並將它們轉換為CSV檔案。SeccXPS模組化封裝了安全領域一些常見的通用資料預處理方法,從簡單的重複資料刪除、檔案合併、資料清洗,到高階特徵提取,如PCAP檔案轉CSV檔案、資料降維等,並支援使用者手動設定相關引數對當前資料進行處理。 以pcap檔案到csv檔案的轉換為例,傳統的基於機器學習的網路流量分析嚴重依賴人工工作,在實踐中,獲取特徵、模型和引數的最優組合通常是乙個迭代過程,存在一些缺點。 首先,資料的適當表示和特徵選擇對於流量分析任務非常重要,但即使具備領域知識,特徵工程仍然是乙個脆弱且不完善的過程,在人工分析過程中可能會忽略不明顯或包含複雜關係的特徵。 其次,網路環境複雜多變,流量模式的變化帶來特性失效; 最後,對於每個新的流量檢測或分類任務,都需要重新設計新特徵,選擇適當的模型,並重新調整引數。 為了避免這些問題,本節展示了一種使用 secxops 實現的加密流量分析方法。 對於許多分類問題,資料表示與模型選擇同樣重要,因此在應用機器學習方法時,如何表示和編碼資料非常重要。 對於網路流量資料的編碼,需要滿足以下要求:(1)完整表示。 這種方法的目的不是選擇特定的特徵,而是對統一的資料進行編碼,避免依賴專家知識,因此需要保留包括報頭在內的所有資料包資訊; (2)固定尺寸。 許多機器學習模型的輸入始終大小相同,因此每個資料包表示形式必須是恆定大小; (3)固有歸一化。 當特徵被歸一化時,機器學習模型通常表現得更好,從而減少了訓練時間並提高了模型穩定性,因此,如果對資料本身的初始表示進行歸一化,將非常方便; (4)一致的表述。 資料表示的每個位置都應該對應所有資料包標頭的同一部分,這意味著即使協議和資料包長度不同,特定特徵在資料包中始終具有相同的偏移量,對齊的資料將允許模型基於此前提學習特徵表示。

在此處插入 ** 來描述,如上圖所示,表示網路流量的主要方式包括語義表示法和樸素二進位表示法。 (1)語義符號:每個頭頭都有自己的語義字段,但不保留可選字段的順序,同時需要領域專業知識來解析每個協議的語義結構,此外,儘管擁有這些知識,但未來不可避免地要進行繁瑣的特徵工程; (2)樸素二進位表示法:使用資料包的原始位圖表示來維持順序,但忽略了不同的大小和協議,導致兩個資料包的特徵向量對同一特徵具有不同的含義,這種錯位可能會在重要特徵的代替中引入雜訊,降低模型的效能, 同時,結果是無法解釋的,因為每個位都無法對映到語義

如上圖所示,secxops 內建的資料預處理模組 nprint 解決了單一表示方式無法統一資料表示的問題。 首先,它保證任何資料包都可以完整地表示而不會丟失任何資訊; 然後,使用內部填充可以確保每個資料包由相同數量的特徵表示,並且每個特徵具有相同的含義,這種位級可解釋表示可以讓我們更好地理解模型; 其次,直接使用報文的位,將該位設定為0來區分某個位,不存在的報文頭用-1填充; 最後,每個資料包由相同數量的特徵表示,對於給定的網路流量分析任務,有效負載設定為可選的位元組數。 此外,nprint是模組化和可擴充套件的,不僅允許將其他協議新增到表示中,還可以連線一組資料包表示以構建多資料包nprint指紋[14]。 經過nprint處理後,pcap包可以轉換為CSV檔案,然後可用於進一步的特徵處理或直接演算法訓練。 除了上述資料處理方法外,SeCXOps還支援使用者對個人編輯的資料預處理模組進行封裝和復用,實現自定義的資料清洗、資料增強等功能。

綠盟科技SeCXOPS安全智慧型分析技術***

gb-t 36630.5-2018 資訊科技產品安全可控評價指標 第5部分:通用計算機。