Post-doctorant(e) Projet « COM-IA » « Vision artificielle et réseaux de neurones profonds appliqués à l'analyse sémantique et la segmentation de manuscrits anciens » / Post-doctorant(e) Project: « COM-IA » “Computer Vision and Deep Neural Networks for Sem
Université Paris 1 Panthéon Sorbonne
Mission
Descriptif de l’employeur : L'université Paris 1 Panthéon-Sorbonne (UP1PS) développe un secteur de recherche en IA en mathématiques appliquées aux sciences humaines sociales. La recherche au sein de l’établissement est portée par un tissu d’unités scientifiques, véritables pépinières de performance et d’innovation, constitué de 37 unités de recherche, dont 24 sont en cotutelle avec le CNRS et/ou l’IRD. Certaines de ces unités, dont le laboratoire Lamop, bénéficient de financements de recherche attribués dans le cadre du projet Sorb’Rising porté par l’UP1PS (lauréat de l’appel à projets Excellences de France 2030), qui vise notamment à soutenir la recherche transdisciplinaire à Paris 1. Le projet COM-IA, porté par le laboratoire Lamop, est l’un de ces projets de recherche transdisciplinaire soutenus par Sorb’Rising.
Descriptif de la mission : Recherche en mathématiques appliquées Les principales questions abordées dans le cadre de ce projet sont :
1 la détection et l’identification de motifs d’intérêt (illustrations, glose, annotations...) présents dans les numérisations de manuscrits médiévaux, le positionnement de ces motifs sur la page,
2. l’identification du texte sur la numérisation, ainsi que la description précise des caractéristiques de celui-ci (positionnement, nombre de colonnes, taille des marges, module,…),
3. la détection et l’identification automatique de signes visuels structurant la page (symboles, abréviations, renvois,…),
4. la différenciation entre texte principal et tout type d'annotation paratextuelle, dont la glose. Il s’agit d’annotations se présentant sous la forme de commentaires structurés.
5. mise en relation automatique de la glose avec la partie du texte à laquelle elle se rapporte,
6. le repérage de strates d’écriture rédigées à des périodes différentes qui seront ordonnées chronologiquement. Les principaux outils pour mener ce projet à bien consistent pour une part en des stratégies préexistantes telles que les approches de reconnaissance de caractères (HTR), certaines architectures de réseaux de neurones profonds préentraînés (Kraken,…), des stratégies de segmentation d’image classiques en vision artificielle (computer vision).
Toutefois une spécificité importante du présent projet tient au faible nombre d’exemples d’apprentissage, ce qui rend l’entraînement des réseaux de neurones profonds habituellement difficile. Il est donc nécessaire de développer des stratégies alternatives reposant par exemple sur l’apprentissage auto-supervisé (selfsupervised learning) ou encore des techniques d’augmentation de données à l’aide de modèles de diffusion par exemple.
Sur un plan historique Les manuscrits juridiques sont la cible de ce projet. À partir du XIIe siècle se met en place une Europe du droit. Elle est la conséquence, notamment, de la codification des droits romains et canons, de la revendication par les princes du pouvoir de légiférer, d'une hiérarchisation des justices à leur profit, de la judiciarisation de la vie sociale qui fait des juges et des juristes des figures centrales ou encore, de manière plus générale, d'un besoin social de la loi et du droit. Cette Europe du droit voit une production croissante de manuscrits juridiques. De nature très hétérogène (codes, coutumiers, ordonnances, statuts, accords de parlement, livres universitaires, de la pratique ou encore manuscrits personnels), ce corpus construit néanmoins une 2 sémiotique juridique commune dans la société médiévale. Écriture, mise en page, décoration construisent la singularité scripturaire et matérielle des manuscrits juridiques : la norme et son application est ainsi dépendante de ce standard d'écriture. En lien avec le programme du Lamop sur les technologies législatives, ce projet a pour originalité de développer une approche interdisciplinaire, combinant codicologie quantitative et intelligence artificielle (IA) pour analyser un large corpus de manuscrits numérisés. L'objectif est de décrypter les différentes strates d'écriture (texte principal, gloses, annotations marginales, etc.), de les ordonner chronologiquement et d'étudier leurs interactions. Si cette approche s'intéresse à la spécificité de la scripturalité juridique - la question de la construction de l'authenticité de la norme par exemple –, la méthodologie ainsi construite pourra s'appliquer à d'autres corpus afin de renouveler l'approche, en particulier numérique, du rôle du livre dans la société médiévale.
Environnement de travail :
Le LaMOP est un laboratoire spécialisé dans l’étude du Moyen Âge occidental, composé de 33 membres permanents et de 23 doctorants, dont les recherches se développent autour de six axes thématiques transversaux (Médiévistique numérique ; Paris médiéval ; Pouvoir, gouvernement, domination ; Produire, tranformer, échanger ; Scripturalités, langages, savoirs ; Spatialités). Il est implanté sur les sites de la Sorbonne à Paris et du Campus Condorcet à Aubervilliers. Il crée, développe et maintient plusieurs ressources numériques mises à la disposition de la communauté scientifique (Studium Parisiense, PALM, CBMA, Datini, CARO, CEMA, ALPAGE, TOPAMA, Actes Princiers, CIS, C@nivez...) ainsi qu’une plateforme d’interrogation avancée de larges corpus de textes et manuscrits médiévaux numérisé
Le SAMM - Statistique, Analyse, Modélisation Multidisciplinaire (1) est une unité de recherche de l’université Paris 1 Panthéon-Sorbonne (UR 4543) et l’un des 3 laboratoires de la Fédération de Recherche (FR2036 CNRS). L’équipe comprend 10 professeur(e)s, 10 maître(sse)s de conférences, une PRAG, une chargée de gestion, 8 doctorants. Les domaines de recherche présents au sein du SAMM couvrent de nombreux champs des mathématiques appliquées (apprentissage statistique, apprentissage profond, probabilités et statistique, transport optimal, optimisation, et analyse fonctionnelle appliquée). 3 Le SAMM dispose également d’une grande expérience de projets en collaboration avec les entreprises dans des domaines applicatifs variés.
---------------
English :
Employer Description : Paris 1 Panthéon-Sorbonne university (UP1PS) is developing a research area in AI involving applied mathematics for the human and social sciences. This research is supported by a network of scientific units, true incubators of performance and innovation, consisting of 37 research units (24 of which are under joint supervision with the CNRS and/or the IRD). A few of these units, including the Lamop laboratory, benefit from research fundings within the framework of the Sorb'Rising project supported by UP1PS (winner of the "Excellences de France 2030" call for projects). The Sorb'Rising project notably aims at supporting transdisciplinary research at Paris 1. The COM-IA project, led by the Lamop laboratory, is one of these transdisciplinary research projects supported by Sorb'Rising.
Mission Description : Applied mathematics research The main questions addressed within the framework of this project are:
1. Detection and identification of motifs of interest (illustrations, glosses, annotations, etc.) present in the digitizations of medieval manuscripts, and the positioning of these motifs on the page.
2. Identification of the text on the digitization, as well as a precise description of its characteristics (positioning, number of columns, margin size, module, etc.).
3. Automatic detection and identification of visual signs structuring the page (symbols, abbreviations, references, etc.).
4. Differentiation between the main text and any type of “para-textual” annotation, including glosses (These are annotations presented in the form of structured comments).
5. Automatic linking of glosses with the part of the text to which they are related.
6. Identification of text layers written in different periods, which will be chronologically ordered.
The main tools to successfully carry out this project partly consist of pre-existing strategies such as Handwritten Text Recognition (HTR) approaches, certain pre-trained deep neural network architectures (Kraken, etc.), and classic image segmentation strategies in computer vision.
However, an important specificity of this project lies in the small number of training examples, which usually makes the training of deep neural networks difficult. It is therefore necessary to develop alternative strategies based, for example, on self-supervised learning or data augmentation techniques using diffusion models, for instance.
Historical Context :
Legal manuscripts are the target of this project. Starting in the 12th century, a Europe of law took shape. This was notably a consequence of the codification of Roman and canon law, the claim by princes of the power to legislate, a hierarchical organization of justice to their benefit, the judicialization of social life that made judges and jurists central figures, and more generally, a social need for law. This Europe of law saw a growing production of legal manuscripts. Of a very heterogeneous nature (codes, customary laws, ordinances, statutes, parliamentary agreements, university books, practical manuals, or even personal manuscripts), this corpus nevertheless built a common legal semiotics in medieval society. Writing, layout, and decoration constructed the scriptural and material singularity of legal manuscripts: the norm and its application were thus dependent on this writing standard. In connection with the Lamop's program on legislative technologies, this project's originality lies in developing an interdisciplinary approach, combining quantitative codicology and artificial intelligence (AI) to analyze a large corpus of digitized manuscripts. The objective is to decipher the different layers of writing (main text, glosses, marginal annotations, etc.), to order them chronologically, and to study their interactions. While this approach focuses on the specificity of legal scripturality – the question of the construction of the authenticity of the norm, for example – the methodology thus constructed can be applied to other corpora in order to renew the approach, particularly the digital one, to the role of the book in medieval society.
Work Environment:
LaMOP is a laboratory specializing in the study of the Western Middle Ages, comprising 33 permanent members and 23 doctoral students. Their research develops around six transversal thematic axes: Digital Medieval Studies; Medieval Paris; Power, Government, Domination; Production, Transformation, Exchange; Scripturalities, Languages, Knowledge; Spatialities. It is located at the Sorbonne site in Paris and the Condorcet Campus in Aubervilliers. It creates, develops, and maintains several digital resources available to the scientific community (Studium Parisiense, PALM, CBMA, Datini, CARO, CEMA, ALPAGE, TOPAMA, Actes Princiers, CIS, C@nivez...) as well as an advanced query platform for large corpora of digitized medieval texts and manuscripts.
SAMM - Statistics, Analysis, Multidisciplinary Modeling (1) is a research unit of Université Paris 1 Panthéon-Sorbonne (UR 4543) and one of the 3 laboratories of the Research Federation (FR2036 CNRS). The team includes 10 professors, 10 assistant professors, one PRAG (professor with a high teaching load), one administrative assistant, and 8 doctoral students. The research areas within SAMM cover many fields 2 of applied mathematics (statistical learning, deep learning, probability and statistics, optimal transport, optimization, and applied functional analysis). SAMM also has extensive experience in collaborative projects with companies in various application areas
Profil
Savoir-faire :
- Solides compétences en traitement d'images et en reconnaissance de formes.
- Expertise en apprentissage automatique (machine learning) et en intelligence artificielle, notamment en apprentissage profond (deep learning).
- Maîtrise des outils de programmation (Python, etc.) et des bibliothèques associées (TensorFlow, PyTorch, OpenCV, etc.).
Compétences spécifiques :
- Expérience dans la détection et la reconnaissance de motifs visuels.
- Capacité à développer des algorithmes pour l'analyse de documents complexes.
- Curiosité pour l’histoire
Savoir-être :
- Rigueur scientifique et capacité d'analyse.
- Autonomie et esprit d'initiative.
- Aptitude à travailler en équipe.
Formation souhaitée :
- Doctorat en mathématiques appliquées, informatique, traitement d'images, intelligence artificielle. Si les compétences techniques sont maîtrisées il peut s’agir d’un domaine connexe comme les humanités numériques.
-------------------
English
Know-how :
- Strong skills in image processing, computer vision, and pattern recognition.
- Expertise in machine learning and artificial intelligence, particularly in deep learning.
- Proficiency in programming tools (Python, etc.) and associated libraries (TensorFlow, PyTorch, OpenCV, etc.).
Specific Skills:
- Experience in the detection and recognition of visual patterns.
- Ability to develop algorithms for the analysis of complex documents.
- Curiosity for history.
Soft Skills:
- Scientific rigor and analytical skills.
- Autonomy and initiative.
- Ability to work within a team.
Desired Education :
- PhD in applied mathematics, computer science, image processing, artificial intelligence. If the technical skills are masterized, a related field such as digital humanities may be considered as well.
Compétences
Le post-doctorant sera responsable des tâches suivantes :
Conception et développement d'algorithmes :
- Concevoir et développer des algorithmes appropriés pour répondre aux questions de recherche proposées.
- Implémenter ces algorithmes dans un langage de programmation adéquat.
- Optimiser les performances des algorithmes développés, en termes de précision, de robustesse et d'efficacité.
Collecte et préparation de données :
- Collecter et préparer les données nécessaires à ses recherches, qui pourront inclure des documents numérisés, des images et du texte.
- Préparer ces données afin de les rendre exploitables par les algorithmes.
- Création d’un dataset support des analyses
Expérimentation et validation :
- Mener des expériences pour tester et valider ses hypothèses de recherche.
- Collaborer avec les autres membres de l'équipe de recherche, et éventuellement avec des partenaires extérieurs, pour mener à bien ces expériences.
Valorisation de travaux :
- Rédaction (en anglais) et soumission d’articles dans des revues scientifiques à comité de lecture de haut niveau en Mathématiques appliquées et en Histoire.
- Soumission de contributions et exposés (en anglais) dans des conférences nationales et internationales de haut niveau.
- Participation active à des séminaires.
- Organisation d’événements scientifiques.
---------------
English :
The postdoctoral researcher will be responsible for the following tasks:
Algorithm Design and Development:
- Design and develop appropriate algorithms to address the proposed research questions.
- Implement these algorithms in a suitable programming language.
- Optimize the performance of the developed algorithms in terms of accuracy, robustness, and efficiency.
Data Collection and Preparation :
- Collect and prepare the data required for their research, which may include digitized documents, images, and texts.
- Prepare these data to make them usable by the algorithms.
- Create datasets to support the analyses.
Experimentation and Validation :
- Conduct experiments to asssess (and confrm?) their research hypotheses.
- Collaborate with other members of the research team, and potentially with external partners, to carry out these experiments.
Main achievement promotion :
- Writing (in English) and submitting articles to high-level peer-reviewed scientific journals in Applied Mathematics and History.
- Submitting contributions and talks (in English) at high-level national and international conferences.
- Active participation to seminars.
- Organization of scientific events.