Sujets proposés

Sujet 1Darkmatter

Will you be able to distinguish purely random sequences from sequences contained well-encrypted information?

Cryptography is the art of transforming a message into a ciphertext which can only be understood by those who possess the secret key necessary to decipher it.

Modern cryptography plays a central role in secure communications and computer security in general. As messages are encoded into sequences of bits on computers, modern cryptography should transform a sequence of 0 and 1s which contains information into a (finite) random looking sequence. Nevertheless, the concept of "finite random sequence" is vague and subject to interpretation.

The goal of this workshop is to develop new ways to identify biases in finite binary sequences and ultimately to quantity the amount of randomness (or entropy) within sequences.

In particular, we will provide 4 different ciphers, two of which are presenting weaknesses and 2 of which being resistant to all known methods of attack.

Will you be able to distinguish them?

No previous background in cryptography is required, all mathematicians dealing, even from far, with randomness as well as theoretical computer scientists can easily understand the problem and contribute to the workshop.

[+]

Sujet 2Paris Aéroport (Groupe ADP)

Reconnaissance du bruit d'avion au survol

La section Acoustique du Laboratoire du Groupe Aéroport de Paris a pour mission principale d’effectuer la surveillance du bruit du trafic aérien autour des plateformes aéroportuaires. Grâce à ses stations de mesure elle a la possibilité d’enregistrer des bruits de survols d’avion. Ces enregistrements contiennent des bruits d’avion mais également tous les bruits environnants le point de mesure : bruit de moteurs de voitures, etc… L’idée de ce sujet est de mettre en place un outil de reconnaissance des bruits de survol : comment caractériser et reconnaitre le bruit d’un survol dans les données ? Les données misent à disposition seront des enregistrements sonores (fichiers .wav) et des données radar afin de connaître les passages de certains avions pour valider l’algorithme de reconnaissance.

[+]

Sujet 3Seenergi

Détection précoce de maladies pour des vaches équipées de capteurs

Le monde de l'élevage n'échappe pas à la révolution des objets connectés. Le groupe Seenergi, à travers sa filiale Medria Solutions (www.medria.fr) distribue auprès des éleveurs, différents capteurs dont un collier muni d’un accéléromètre permettant à l’éleveur de monitorer les comportements de la vache. Le collier permet aujourd’hui de savoir si une vache mange bien, rumine bien, si elle est en oestrus, si elle se couche assez mais ne détecte ni les maladies ni les boiteries qui intéresseraient particulièrement les éleveurs… Medria équipe actuellement 300 000 animaux dans le monde dont une majorité en France.

Par ailleurs, les éleveurs renseignent des carnets sanitaires électroniques ou papiers, ils réalisent des analyses pour déceler d’éventuelles maladies… Le projet vise donc croiser les données collectées par les capteurs et les données renseignées par les éleveurs autour des maladies et boiteries pour essayer de détecter certaines maladies avec le capteur en analysant le comportement des vaches. Serait-il par exemple possible de prévoir l'apparition de maladies, avant même qu'un éleveur à l'œil exercé ne les détecte ? Cela permettrait un traitement très en amont des vaches malades et réduirait la propagation des maladies au sein du cheptel; ce serait une véritable aide pour l'éleveur.

Formellement, il s'agit donc d'un problème de classification binaire de séries temporelles, avec la double difficulté additionnelle que les événements à détecter (les maladies) sont rares et que les données sont abondantes (les relevés d'activités ont lieu sur des plages de 5 minutes). La prise en compte de la nature de série temporelles des données d'entrée sera sans doute critique. L'objectif de l'étude sera de proposer une méthodologie complète (pré-traitement des données pour les résumer, construction de règles de classification, validation des résultats) pour voir à quel horizon une prévision fiable (et donc commercialisable) peut être réalisée: J-1, J-2 ? Et avec quel taux de succès ou d'échec (vrais positifs ou faux positifs) ?

[+]

Sujet 4SNCF

Modélisation et prévision des temps d'échange en gare

Un des facteurs de la ponctualité des trains en zone dense de Mass Transit -- et de la gestion de crise en cas d'incident sur une ligne -- est le respect à la fois du temps de parcours entre deux gares et du temps de stationnement dans une gare. Le minimum de ce temps de stationnement est déterminé au premier ordre par le temps mis pour que tous les passagers qui veulent descendre du train puissent le faire et que tous ceux qui veulent monter du train puissent le faire également; ce temps s'appelle le temps d'échange. Il est d'autant plus grand que le train et/ou le quai de gare sont remplis. Il dépend des jours et des heures considérés, mais aussi d'autres facteurs, comme la configuration de la gare (quai unique ou plusieurs quais, présence d'obstacles sur le quai comme des escaliers) et des saisons ou moments particuliers de l'année (vacances scolaires p.ex.). Des études internes à la SNCF - Transilien ont déjà porté sur des tentatives de modélisation / prévision de ces temps d'échange, et en particulier sur la détermination des variables les plus influentes; elles ont surtout montré que le problème n'était pas évident à cerner...

Concrètement, l'objectif de la semaine sera d'étudier et prévoir les temps d'échange à partir d'un jeu de données d'une ligne précise de Transilien (a priori la ligne H mais à confirmer), sur une période de temps déterminée, avec indication des temps d'arrivée / sortie de gare, type de matériel roulant (afin de déterminer les temps de fermetures des portes), décomptes des passagers entrants-sortants pour chaque gare, etc.

[+]

Sujet 5Stormancer

Realtime prediction of vehicle trajectory in multiplayer videogames

Stormancer provides low latency, highly scalable technologies to videogame studios. Our cross platform software simplifies development operations and continuous integration of new enhancements for complex multiserver realtime infrastructures.

Replicating physical positions in multiplayer games is a tricky task: on the one hand, one wants the replicated object to behave as much as possible the same as the original, and on the other hand one wants the transmitted data to be as little as possible. Moreover, there is always the issue of latency: data transmission is never immediate, so a varying delay that must be considered. Worse, because older messages are obsolete, unreliable messaging is to be used, so there is no guarantee that a given message will be received. Ordering can be maintained however. The state of the art is currently to choose some extrapolation algorithm (for instance a Kalman filter), then manually parameterize it through a succession of trials and errors.

From several sampled dataset of timestamped vehicles positions, speed and orientations obtained through simulation of a set of deifferent network conditions (latency/message loss), the goal is to recreate the trajectory of the vehicle, in realtime. We provide the original dataset prior to network transmission, for training and evaluation of the performance of the algorithm.

[+]

Sujet 6Dataswati

Mesures de similarité et amélioration de prévisions qualité en sortie d'usine

Dataswati est une start-up qui développe une intelligence artificielle pour modéliser des process industriels longs et non-linéaires, afin de prévoir la qualité en fin de process, pour fournir une aide au pilotage. Il est courant que différentes usines fabriquant le même produit n'aient pas la même qualité ou la même profondeur d'historique. Le transfer learning est une piste possible pour mutualiser les données entre usines, mais le sujet est mal maîtrisé en dehors de l'analyse d'image, même si des pistes intéressantes émergent avec des techniques de deep learning ou de transport optimal.

Le sujet proposé consiste à regrouper de façon optimale différentes usines correspondant à un même procédé, mais exhibant des dynamiques différentes, en exploitant des données réalistes simulées à partir d'un même modèle. Nous introduirons de façon contrôlée des variations pour correspondre aux différences vues sur le terrain (petite ou grande station, process quasi-stable ou variable, incertitudes de mesures faibles ou non, etc.). Le process dépend de variables continues (que nous avons simplifiées à une dépendance en température) et discrètes (on/off correspondant à un automate industriel). L'objectif est donc de caractériser les dynamiques à partir des données, construire des mesures de similarité et voir dans quelle mesure une stratégie de transfer learning par adaptation de domaine permet d'améliorer les prévisions sur la variable cible en sortie de process.

[+]