Abstract
機械学習によるアプリケーション判定は、アプリケーションごとのスライシングやゼロレーティングサービスに応用できるため、多くの研究が行われている。このアプリケーション判定の研究においては、収集したフローデータに含まれるデータのうち新しいデータを検証データとして分割し評価を行うケースが一般的である。しかし、そのような検証データの分割方法では、同じユーザ端末から発するフローが訓練データと検証データの両方に含まれることになるため、新規ユーザのフローを判定するという本来の目的からデータセットの性質が乖離する。さらに、データセットに含まれる特定ユーザに依存するパターンに対して過学習した結果、未知のユーザを対象にしたときと比較して検証データにおける精度が高くなる可能性がある。本研究では訓練データと検証データで生成元となる端末を分けるために、端末の識別子であるIMEIを用いることを提案する。IMEIを用いた検証手法と既存の検証手法と出力されるモデル性能がどの程度異なるかを、アプリケーション判定の識別タスクにて評価した結果、既存の検証手法では4%程度、訓練用端末と検証用端末の組み合わせによっては最大10%モデルの性能を過大評価していることを示す。さらに、モバイルトラフィックでは端末との結びつきが変化するソースIPによる分割が既存の検証手法と同等の結果を生じることを通じて、ユーザの分離には端末との紐付きが厳密なIMEIが必要であることを示す。
岩井貴充, 中尾彰宏. “機械学習によるモバイルアプリケーション判定の検証方法と問題点”. 信学技報, vol. 119, no. 92, NS2019-40, pp. 29-34, 2019年6月. copyright©2019 IEICE