Apprentissage par Renforcement pour le Pavage Optimal par Polycubes sous Contraintes Physiques : Application au Rangement Robotisé de Bagages Arrivant Séquentiellement

Offre de thèse

Date limite de candidature

15-10-2025

Date de début de contrat

01-10-2025

Directeur de thèse

JAMET Damien

Encadrement

Autre directrice : Lama Tarsissi (Sorbonne University Abu Dhabi)

Type de contrat

Associations, fondations, programmes privés étrangers

Candidater à cette offre

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

ADAGIO

contexte

Deux encadrants (Damien Jamet et Laurent Ciarletta) sont membres de l'Université de Lorraine/Loria La troisième encadrante est membre de Sorbonne University Abu Dhabi (SUAD) à Abu Dhabi (Emirats Arabes Unis) Le financement est assuré par SUAD pour trois ans.

spécialité

Informatique

laboratoire

LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Mots clés

Apprentissage par Renforcement, Empilement de polyomino, Optimisation Combinatoire

Détail de l'offre

Ce projet de thèse aborde le défi complexe de l'automatisation du chargement de conteneurs, spécifiquement appliqué à la manutention robotisée de bagages arrivant séquentiellement. Le problème, connu sous le nom d'empaquetage 3D en ligne, est rendu difficile par la diversité des objets (forme, masse, fragilité) et la nécessité de respecter des contraintes physiques strictes pour garantir la stabilité et l'intégrité de la cargaison.

L'approche proposée est d'utiliser l'apprentissage par renforcement profond (Deep RL) pour développer un agent capable d'apprendre des stratégies d'empaquetage optimales et adaptatives. L'objectif principal est de maximiser la densité de remplissage tout en respectant des contraintes physiques complexes, comme la prévention des dommages et la stabilité de l'empilement.

Pour y parvenir, la recherche se concentre sur plusieurs axes clés :

Développement d'une simulation physique haute-fidélité : Un environnement de simulation réaliste sera créé, modélisant un robot (cobot ou humanoïde), un flux d'objets (approximés par des polycubes aux propriétés variées) et les dynamiques de contact complexes. Un point central est la modélisation de placements dynamiques, ou 'lancers doux', une alternative rapide au placement précis. Cette simulation est essentielle pour l'entraînement de l'agent et le transfert des compétences vers un robot réel (sim-to-real).

Apprentissage de stratégies de placement avancées : L'agent RL devra apprendre non seulement la position et l'orientation optimales pour chaque objet, mais aussi à choisir la meilleure méthode de placement (précise vs. dynamique) en fonction de l'objet et de la situation. Cela implique de gérer un espace d'actions hybride (décisions discrètes et continues).

Conception d'algorithmes et de récompenses adaptés : Le projet explorera des algorithmes RL de pointe (PPO, SAC, etc.) et des architectures de réseaux (GNNs) pour raisonner sur la géométrie. Une attention particulière sera portée à la conception de fonctions de récompense qui équilibrent densité, débit, et respect des contraintes, tout en surmontant le problème des récompenses rares.

Validation et généralisation : La performance de l'agent sera rigoureusement évaluée sur sa capacité à généraliser ses stratégies à des objets et des séquences jamais vus. Des objectifs exploratoires incluent l'intégration de comportements plus complexes comme la mobilité du robot, l'utilisation d'une zone de stockage temporaire (buffering) ou le réarrangement local d'objets.

Impact et livrables : Ce projet vise à faire progresser l'optimisation combinatoire et la robotique autonome en intégrant des contraintes physiques réalistes. Les retombées socio-économiques concernent l'automatisation de la logistique, l'amélioration de l'ergonomie et la réduction des coûts. Les livrables attendus incluent une plateforme de simulation, de nouveaux algorithmes, des publications scientifiques, et un démonstrateur validé en simulation et potentiellement sur un robot physique.

Keywords

Reinforcement Learning, Polyomino packing, Combinatorial Optimization

Subject details

This PhD project tackles the complex challenge of automating container loading, applied specifically to the robotic handling of sequentially arriving luggage. This problem, known as online 3D packing, is complicated by the diversity of items (in shape, mass, and fragility) and the need to adhere to strict physical constraints to ensure cargo stability and integrity. The proposed approach is to use Deep Reinforcement Learning (Deep RL) to develop an agent capable of learning optimal and adaptive packing strategies. The primary objective is to maximize packing density while respecting complex physical constraints, such as preventing damage and ensuring stack stability. To achieve this, the research focuses on several key areas: Development of a high-fidelity physics simulation: A realistic simulation environment will be created, modeling a robot (cobot or humanoid), a stream of objects (approximated as polycubes with varied properties), and complex contact dynamics. A central focus is the modeling of dynamic placements, or 'gentle throws,' as a rapid alternative to precise placement. This simulation is essential for training the agent and for transferring skills to a real robot (sim-to-real). Learning advanced placement strategies: The RL agent will need to learn not only the optimal position and orientation for each item but also to choose the best placement method (precise vs. dynamic) based on the item and the situation. This involves managing a hybrid action space (discrete and continuous decisions). Design of adapted algorithms and rewards: The project will explore state-of-the-art RL algorithms (e.g., PPO, SAC) and network architectures (GNNs) for geometric reasoning. Special attention will be paid to designing reward functions that balance density, throughput, and constraint adherence, while overcoming the sparse reward problem. Validation and generalization: The agent's performance will be rigorously evaluated on its ability to generalize its strategies to unseen items and sequences. Exploratory goals include integrating more complex behaviors such as robot mobility, the use of a temporary storage area (buffering), or local item rearrangement. Impact and Deliverables: This project aims to advance combinatorial optimization and autonomous robotics by integrating realistic physical constraints. Socio-economic benefits include logistics automation, improved ergonomics, and cost reduction. Expected deliverables include a simulation platform, novel algorithms, scientific publications, and a proof-of-concept demonstrator validated in simulation and potentially on a physical robot.

Profil du candidat

Profil Ingénieur/Master en IA. Solides compétences en Python et Apprentissage par Renforcement Profond (Deep RL), avec maîtrise de PyTorch/TensorFlow. Une première expérience en simulation physique ou en robotique est un atout majeur. Qualités essentielles : rigueur scientifique, autonomie, persévérance et une forte curiosité pour la résolution de problèmes complexes.

Candidate profile

Profile: Engineering/Master's degree in AI. Strong skills in Python and Deep Reinforcement Learning (Deep RL), with proficiency in PyTorch/TensorFlow. Prior experience in physics simulation or robotics is a major asset. Essential qualities: scientific rigor, autonomy, perseverance, and a strong curiosity for complex problem-solving.

Référence biblio

[1] Barequet, G., & Shalah, S. (2010). Enumerating Polycubes. In Thirty Essays on Geometric Graph Theory
(pp. 37-58). Springer, New York, NY.
[2] Dyckhoff, H. (1990). A typology of cutting and packing problems. European Journal of Operational
Research, 44(2), 145-159.
[3] Siciliano, B., & Khatib, O. (Eds.). (2016). Springer Handbook of Robotics. Springer. (Chapitres sur la
cinématique, la dynamique, le contrôle et la manipulation des robots manipulateurs).
[4] Spong, M. W., Hutchinson, S., & Vidyasagar, M. (2005). Robot Modeling and Control. Wiley.
[5] Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning : An Introduction. MIT Press.
[6] Arulkumaran, K., Deisenroth, M. P., Brundage, M., & Bharath, A. A. (2017). Deep Reinforcement
Learning : A Brief Survey. IEEE Signal Processing Magazine, 34(6), 26-38.
[7] Kober, J., Bagnell, J. A., & Peters, J. (2013). Reinforcement learning in robotics : A survey. The
International Journal of Robotics Research, 32(11), 1238-1274.