表示網路流量的主要方式包括：

在安全領域，我們發現資料預處理的很多步驟可以在不同的場景下相互引用，甚至可以直接復用。例如，對於與加密流量相關的資料，當演算法工程師獲取一批加密流量的PCAP資料包時，無論他們面臨的任務是加密流量的準確識別、異常檢測，還是惡意軟體檢測，PCAP包最原始的資料預處理思想是相似的，比如收集流級特徵，資料包級功能等，並將它們轉換為CSV檔案。SeccXPS模組化封裝了安全領域一些常見的通用資料預處理方法，從簡單的重複資料刪除、檔案合併、資料清洗，到高階特徵提取，如PCAP檔案轉CSV檔案、資料降維等，並支援使用者手動設定相關引數對當前資料進行處理。以pcap檔案到csv檔案的轉換為例，傳統的基於機器學習的網路流量分析嚴重依賴人工工作，在實踐中，獲取特徵、模型和引數的最優組合通常是乙個迭代過程，存在一些缺點。首先，資料的適當表示和特徵選擇對於流量分析任務非常重要，但即使具備領域知識，特徵工程仍然是乙個脆弱且不完善的過程，在人工分析過程中可能會忽略不明顯或包含複雜關係的特徵。其次，網路環境複雜多變，流量模式的變化帶來特性失效; 最後，對於每個新的流量檢測或分類任務，都需要重新設計新特徵，選擇適當的模型，並重新調整引數。為了避免這些問題，本節展示了一種使用 secxops 實現的加密流量分析方法。對於許多分類問題，資料表示與模型選擇同樣重要，因此在應用機器學習方法時，如何表示和編碼資料非常重要。對於網路流量資料的編碼，需要滿足以下要求：（1）完整表示。這種方法的目的不是選擇特定的特徵，而是對統一的資料進行編碼，避免依賴專家知識，因此需要保留包括報頭在內的所有資料包資訊; （2）固定尺寸。許多機器學習模型的輸入始終大小相同，因此每個資料包表示形式必須是恆定大小; （3）固有歸一化。當特徵被歸一化時，機器學習模型通常表現得更好，從而減少了訓練時間並提高了模型穩定性，因此，如果對資料本身的初始表示進行歸一化，將非常方便; （4）一致的表述。資料表示的每個位置都應該對應所有資料包標頭的同一部分，這意味著即使協議和資料包長度不同，特定特徵在資料包中始終具有相同的偏移量，對齊的資料將允許模型基於此前提學習特徵表示。

在此處插入 ** 來描述，如上圖所示，表示網路流量的主要方式包括語義表示法和樸素二進位表示法。（1）語義符號：每個頭頭都有自己的語義字段，但不保留可選字段的順序，同時需要領域專業知識來解析每個協議的語義結構，此外，儘管擁有這些知識，但未來不可避免地要進行繁瑣的特徵工程; （2）樸素二進位表示法：使用資料包的原始位圖表示來維持順序，但忽略了不同的大小和協議，導致兩個資料包的特徵向量對同一特徵具有不同的含義，這種錯位可能會在重要特徵的代替中引入雜訊，降低模型的效能，同時，結果是無法解釋的，因為每個位都無法對映到語義

如上圖所示，secxops 內建的資料預處理模組 nprint 解決了單一表示方式無法統一資料表示的問題。首先，它保證任何資料包都可以完整地表示而不會丟失任何資訊; 然後，使用內部填充可以確保每個資料包由相同數量的特徵表示，並且每個特徵具有相同的含義，這種位級可解釋表示可以讓我們更好地理解模型; 其次，直接使用報文的位，將該位設定為0來區分某個位，不存在的報文頭用-1填充; 最後，每個資料包由相同數量的特徵表示，對於給定的網路流量分析任務，有效負載設定為可選的位元組數。此外，nprint是模組化和可擴充套件的，不僅允許將其他協議新增到表示中，還可以連線一組資料包表示以構建多資料包nprint指紋[14]。經過nprint處理後，pcap包可以轉換為CSV檔案，然後可用於進一步的特徵處理或直接演算法訓練。除了上述資料處理方法外，SeCXOps還支援使用者對個人編輯的資料預處理模組進行封裝和復用，實現自定義的資料清洗、資料增強等功能。

綠盟科技SeCXOPS安全智慧型分析技術***

gb-t 36630.5-2018 資訊科技產品安全可控評價指標第5部分：通用計算機。

表示網路流量的主要方式包括：

看過此篇文章的人也喜歡