Conference Paper 2016 1 1 Benchmark datasets for fault detection and classification in sensor data
(Last author) センサーデータにおける故障検出・分類のためのベンチマークデータセット
Bas De Bruijn, Tuan Anh Nguyen, Doina Bucur, Kenji Tei
【抄録】Data measured and collected from embedded sensors often contains faults, i.e., data points which are not an accurate representation of the physical phenomenon monitored by the sensor. These data faults may be caused by deployment conditions outside the operational bounds for the node, and short- or long-term hardware, software, or communication problems. On the other hand, the applications will expect accurate sensor data, and recent literature proposes algorithmic solutions for the fault detection and classification in sensor data. In order to evaluate the performance of such solutions, however, the field lacks a set of benchmark sensor datasets. A benchmark dataset ideally satisfies the following criteria: (a) it is based on real-world raw sensor data from various types of sensor deployments; (b) it contains (natural or artificially injected) faulty data points reflecting various problems in the deployment, including missing data points; and (c) all data points are annotated with the ground truth, i.e., whether or not the data point is accurate, and, if faulty, the type of fault. We prepare and publish three such benchmark datasets, together with the algorithmic methods used to create them: A dataset of 280 temperature and light subsets of data from 10 indoor Intel Lab sensors, a dataset of 140 subsets of outdoor temperature data from SensorScope sensors, and a dataset of 224 subsets of outdoor temperature data from 16 Smart Santander sensors. The three benchmark datasets total 5.783.504 data points, containing injected data faults of the following types known from the literature: random, malfunction, bias, drift, polynomial drift, and combinations. We present algorithmic procedures and a software tool for preparing further such benchmark datasets. © Copyright 2016 by SCITEPRESS- Science and Technology Publications, Lda. All rights reserved.
【抄録日本語訳】組込みセンサーから測定・収集されたデータには、センサーが監視している物理現象を正確に表現していないデータポイント、すなわちフォルトが含まれていることが多い。このようなデータの欠陥は、ノードの動作範囲外の配置条件や、短期的または長期的なハードウェア、ソフトウェア、通信の問題によって引き起こされることがあります。一方、アプリケーションは正確なセンサデータを期待しており、最近の文献ではセンサデータの欠陥検出と分類のためのアルゴリズム的なソリューションが提案されている。しかし、そのような解決策の性能を評価するために、この分野ではベンチマークとなるセンサーデータセットが不足している。ベンチマークデータセットは以下の基準を満たすことが理想的である.(a)様々な種類のセンサデプロイメントから得られた実世界の生センサデータに基づいていること、(b)欠損データポイントを含む、デプロイメントの様々な問題を反映した(自然または人為的に注入した)欠陥データポイントを含んでいること、(c)すべてのデータポイントにグランドトゥルース、つまり、データポイントが正確かどうか、欠陥の場合は、障害の種類を注釈していること、である。我々はこのようなベンチマークデータセットを3つ用意し、その作成に使用したアルゴリズム手法とともに公開する。10個の屋内インテルラボセンサーから得た280個の温度と光のサブセットのデータセット、SensorScopeセンサーから得た140個の屋外温度データのサブセットのデータセット、16個のSmart Santanderセンサーから得た224個の屋外温度データのサブセットのデータセットである。3つのベンチマークデータセットは合計5.783.504データポイントで、文献で知られている次のタイプの注入されたデータフォルトを含んでいる:ランダム、誤動作、バイアス、ドリフト、多項式ドリフト、および組み合わせ。このようなベンチマークデータセットをさらに準備するためのアルゴリズム手順とソフトウェアツールを紹介する。© Copyright 2016 by SCITEPRESS- Science and Technology Publications, Lda. 無断転載を禁じます。