jeudi 18 mai 2017

Thèse : Algorithmes d'apprentissage machine appliqués au contexte dynamique de l'internet des objets F/H





Ref : 0016120 | 15 mai 2017
Date limite de candidature : 31 juil. 2017
28 chemin du Vieux Chene 38240 MEYLAN - France

Votre rôle

Vous trouverez ci-dessous la description du contexte de ce travail de recherche.
La mission et les principaux objectifs scientifiques seront précisés sous le titre "Entité".
La croissance exponentielle du nombre d'objets connectés attire de plus en plus l'attention sur leur incapacité à répondre aux exigences spécifiques des communications Machine-to-Machine (M2M).
Le modèle de trafic de ce type de communications consite en un grand nombre d'objets transmettant sporadiquement des paquets réduits. Il est à l'opposé du modèle actuel réalisé dans les réseaux classiques. Les objets devant répondre à des durées de vie sur batterie de plusieurs années, ils ont ainsi des contraintes très fortes en termes de consommation d'énergie. La supervision de ces réseaux fait donc appel à des solutions particulières.
Récemment un tableau de Bord Intelligent pour la supervision des réseaux IoT a été développé par Orange Labs Meylan.
Il permet la supervision d'indicateurs de performances (KPIs) et de respect des contrats sur les niveaux de services (SLAs) définis pour les clients Grands Comptes dans le domaine de l'IoT.
Cet outil est bien adapté pour des envois périodiques (le « smart metering » étant un exemple typique).
Cependant, dans le contexte d'un réseau générique IoT, tels que les réseaux LoRa ou LTE-M, qui sont utilisés pour des clients multiples et des services divers et variés avec le même réseau, Il est nécessaire d'adapter l'outil de mesure de performance à la variété des usages possibles.
Il est notamment nécessaire d'identifier les indicateurs les plus pertinents afin de mesurer de manière fiable les différents KPIs client dans cet environnement complexe.
Lors du développement de ce tableau de bord, quelques techniques simples de "Machine Learning" ont été expérimentées. Les premiers résultats sont très encourageants aussi bien du point de vue de l'analyse d'anomalies que de celui de la maintenance prédictive.
Etat de l'art :
Dans leur « Survey » "A Data-Centric View of the Internet of Things", Y.Qin et al. [3] ont souligné qu'en plus du volume de données, un réseau IoT se caractérise par la redondance, l'incertitude et l'incohérence des données.
En effet, les données issues d'un objet pourraient être manquantes, dupliquées ou incohérentes [3] lorsque plusieurs capteurs déclarent des valeurs potentiellement en conflit sur l'état du même élément de l'environnement.
Un autre aspect de l'IoT est la nature distribuée de l'architecture associée. Cette architecture distribuée va souvent de pair avec un environnement dynamique [3] et une topologie qui évolue dans le temps [4]. De ce fait, C.W.Tsai et al. [4] observent que la plupart des outils de data mining ne peuvent être appliqués directement à l'IoT et que le recours à des algorithmes dynamiques est nécessaire. Les modèles utilisés pour l'IoT doivent en effet pouvoir s'adapter à des caractéristiques des données variables. Il faut notamment tenir compte du « concept drift » ou dérive conceptuelle : les significations statistiques de la variable cible peuvent évoluer au cours du temps d'une manière imprévue.
Dans notre cadre, cette évolution peut résulter de divers facteurs tel que des changements dans l'environnement, le vieillissement des objets ou l'évolution des logiciels sur les noeuds du réseau.
Points de recherche à traiter:
  • évaluation des modèles de ML (Machine Learning) permettant de prédire la norme du comportement large échelle des noeuds IoT
  • détection d'évolution du type « concept drift » ou dérive conceptuelle : quelles sont les variables en cours d'évolution, et de quelle manière les interpréter ?
  • Anonymisation et imputation/affectation de données masquées ou altérées à des fins de protection de la vie privée

Votre profil

Vous êtes diplômé(e) d'un Master de recherche.
Compétences et qualités personnelles souhaitées :
  • Très bonnes connaissances en statistiques et en Machine Learning,
  • Compétences en développement logiciel dans l'enviroment BigData,
  • Curiosité,
  • Autonomie, rigueur,
  • Bonne expression écrite en anglais (publications internationales).

Le plus de l'offre

Cette thèse est à la fois un travail sur les aspects recherche de stream data mining et sur des data sets réels de l'IoT. Vous contribuerez à un projet open source Apache.
Il est en outre prévu de contribuer au projet open source Samoa afin de le rendre "full-fledged » projet Apache. Un projet collaboratif Européen a été déposé sur ce sujet.
Références :
[1] N. A. Ali and M. Abu-Elkheir. Data management for the internet of things: Green directions. In 2012 IEEE Globecom Workshops, pages 386-390, Dec 2012.
[2] G. Ditzler, M. Roveri, C. Alippi, and R. Polikar. Learning in nonstationary environments: A survey. IEEE Comp. Int. Mag., 10(4):12-25, 2015.
[3] Y. Qin, Q. Z. Sheng, N. J. Falkner, S. Dustdar, H. Wang, and A. V. Vasilakos. When things matter. A survey on data-centric Internet of Things. J. Netw. Comput. Appl., 64(C):137-153, Apr. 2016. ISSN 1084-8045.
[4] C. W. Tsai, C. F. Lai, M. C. Chiang, and L. T. Yang. Data mining for internet of things: A survey. IEEE Communications Surveys Tutorials, 16(1):77-97, First 2014. ISSN 1553-877X.
[5] M.Sugiyama, M.Kawanbe, MIT Press (2012) Machine Learning in Non-Stationary Environments
[6] N. Kourtellis, G. De Francisci Morales, A. Bifet, A. Murdopo, IEEE conf. on Big Data 2016, "VHT: Vertical Hoeffding Tree",
[7] Heitor Murilo Gomes, Jean Paul Barddal, Fabrício Enembreck, and Albert Bifet. 2017. A Survey on Ensemble Learning for Data Stream Classification. ACM Comput. Surv. 50, 2, Article 23 (March 2017)
[8] Bifet, A. et al., Pitfalls in Benchmarking Data Stream Classification and How to Avoid Them, Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD 2013, Prague, Czech Republic, September 23-27, 2013, Proceedings, Part I, 2013, Springer Berlin Heidelberg
[9] Brzezinski, D. & Stefanowski, J. Knowl Inf Syst (2017). "Prequential AUC: properties of the area under the ROC curve for data streams with concept drift"

Entité

Cette thèse va s'intéresser à l'application des principes du « Machine Learning » en environnement non stationnaire dans le contexte des réseaux IoT.
Les principaux challenges sont:
  • Identifier les paramètres et indicateurs de mesures les plus pertinents pour l'analyse et la classification du trafic sur les réseaux IoT et des usages associés. Les tests McNemar's test, Cohen's Kappa ou Wilcox's signed-rank sont des critères possibles qui semblent être bien adaptés pour l'IoT [5,8].
  • Extension des techniques de Machine Learning permettant d'intégrer de manière pertinente ces indicateurs : utilisation par exemple d'une structure de décision en arbres tel que l'arbre de Hoeffding [6]
  • Bâtir une approche multicritère permettant d'améliorer l'exactitude des modèles [7] en proposant une intégration optimale, au sens de la performance, des résultats des deux étapes précédentes. Un critère particulièrement important d'appréciation de la performance sera la capacité à percevoir et réagir aux changements.
Approche méthodologique-planning
  • Dans un premier temps, une étude bibliographique sera nécessaire, à la fois pour se découvrir et comprendre le contexte et la particularité des réseaux IoT mais également se familiariser avec les travaux internes existant sur l'utilisation du machine learning et la supervision des réseaux IoT - "incremental statistical measures, decision trees adapted for incremental learning",
  • A partir de cette compréhension de technologies et des usages de l'IoT, proposition d'un premier ensemble de modèles unitaire pertinent, à la fois vis à vis du besoin mais également de la richesse des données exploitées.
  • Une fois ces modèles unitaires stabilisés, une démarche d'agrégation de ces modèles unitaires permettra de construire des entités de plus haut niveau correspondant à des évènements élémentaires au sens de l'activité du réseau IoT puis du service IoT. Pour ce faire, plusieurs pistes seront à investiguer : techniques de somme de probabilité, agrégation de distributions unitaires, agrégation prenant en compte les aspects spatio-temporels, ...
  • Puis construire des évènements de plus haut niveau à partir de ces évènements élémentaires, afin d'exploiter des modèles de niveau supérieur.
L'ensemble de cette étude devra se dérouler autant que possible avec des donnés représentatives de l'utilisation réelle des réseaux IoT d'Orange.

Contrat

Thèse

Aucun commentaire:

Enregistrer un commentaire