Abstract
機械学習によるアプリケーション判定は、アプリケーションごとのスライシングやゼロレーティングサービスに応用できるため、多くの研究が行われている。このアプリケーション判定の研究においては、収集したフローデータに含まれるデータのうち新しいデータを検証データとして分割し評価を行うケースが一般的である。しかし、そのような検証データの分割方法では、同じユーザ端末から発するフローが訓練データと検証データの両方に含まれることになるため、新規ユーザのフローを判定するという本来の目的からデータセットの性質が乖離する。さらに、データセットに含まれる特定ユーザに依存するパターンに対して過学習した結果、未知のユーザを対象にしたときと比較して検証データにおける精度が高くなる可能性がある。本研究では訓練データと検証データで生成元となる端末を分けるために、端末の識別子であるIMEIを用いることを提案する。IMEIを用いた検証手法と既存の検証手法と出力されるモデル性能がどの程度異なるかを、アプリケーション判定の識別タスクにて評価した結果、既存の検証手法では4%程度、訓練用端末と検証用端末の組み合わせによっては最大10%モデルの性能を過大評価していることを示す。さらに、モバイルトラフィックでは端末との結びつきが変化するソースIPによる分割が既存の検証手法と同等の結果を生じることを通じて、ユーザの分離には端末との紐付きが厳密なIMEIが必要であることを示す。
Machine Learning based application identification has been intensively studied for applications such as application specific network slicing and zero-rating services. In machine learning, a test dataset, which is usually divided chronologically in the collected dataset, is used to evaluate a trained model.
We advocate that it is often the case with mobile network analysis that this way of training and validation is irrelevant because overestimation of a trained model may occur when the data from one user is included both in training and in test dataset. In this paper, we propose to use IMEI to identify users and isolate test set from the dataset. We observe that conventional method overestimates by about 4% of accuracy on average and by 10% in the worst case compared to our evaluation using IMEI-based split method. In addition, our evaluation also shows the necessity of the IMEI instead of source IP for data isolation, as a single UE may be assign to multiple source IPs over time and thus source IP may not be a substitute for IMEI.
岩井貴充, 中尾彰宏. “機械学習によるモバイルアプリケーション判定の検証方法と問題点”. 信学技報, vol. 119, no. 92, NS2019-40, pp. 29-34, 2019年6月. copyright©2019 IEICE