[Info 20] - Exemples d'activité relevant du traitement ... des textes

capesman · 19-11-2016 08:23:22

Bonjour,

Cette discussion est ouverte pour parler de la leçon du capes de mathématiques : Exemples d'activité relevant du traitement automatique des textes.

Capesman.

Dernière modification par capesman (27-11-2018 19:53:45)

Samy31 · 18-05-2017 16:22:59

Bonjour,

Avez-vous des idées d'activités?
Qu'entend-on par "traitement automatique des textes"?

Merci
Samy

capesman · 18-05-2017 21:10:44

Bonjour,

Il y a des exemples d'activités dans les fichiers ressources de la spécialité ISN :
* filtrage du spam
* détermination de la langue d'un texte
* on peut aussi penser à tout ce qui tourne autour de la cryptographie? de la compression?
* dans le programme d'ISN, on a aussi "Analyser les entêtes de messages électroniques, pour décrire le chemin suivi par l'information".
* peut-être qu'il faut aussi des choses moins ambitieuses, comme rechercher des portions de texte à l'aide d'expressions régulières...

J'imagine que d'autres personnes auront des idées pertinentes!

Capesman.

Dernière modification par capesman (18-05-2017 21:16:10)

Guinux · 16-06-2017 12:39:57

Merci CapesMan , je ne voyais absolument pas de quoi il était question, et cela m'inquiétait. Tu m'as débloqué.
J'en ai finalement fait plein qu'en je m'occupais de la base de donnée et du débogage d'un ENT (coté éditeur).

Filtrage du spam et détermination de la langue d'un texte OK
Crypto et compression, je pense que c'est peut-être tiré par les cheveux voire dangereux de confondre traitement de texte et traitement de donnée en ce basant uniquement sur le type chaîné des données.

En tête et données techniques me parait être à la fois la limite et être encore du bon coté pour définir cette limite texte et donnée sous l'aspect technique. La problématique de l'adressage me paraît même être utile est être situé à l'extrême limite, car machin@institution.info, est déjà une donnée technique mais est encore bien plus lisible et informatif pour l'humain que tél 01 20 03 40 05et figure en bonne place dans le corps du texte et pas en annexe comme une adresse postale ou un num de tel.

Pour des exemples plus simples on peut peut-être encore parler de renvoi à la ligne automatique dans le cas facile des polices à chasses fixes et affichage colonnes (cycle 4 ++ ou plutôt Seconde), ou celui bien plus complexe des polices à chasses variables (seconde +++ et plutôt ISN ou plus) et pour ce dernier niveau on peut alors s'intéresser à des problèmes plus complexes de calcul de la taille par ligne des espaces pour une justification Droite ET Gauche, sans peut-être rentrer dans le cas complexe de jeu sur l'approche puis du découpage obligatoire de mots puis du renvoi de lettres ou très complexe par syllabe (analytique ou par référence à un index ad-hoc)... mais je m'égare.
En bref les problématiques de mises en forme selon les choix typographiques et l'encombrement.

Pour le core traitement texte d'un point de vue pro pour donner des idées, un petit tour par l'organisation des cellules type PDF et toute sa batterie de normes typos de bases ou plus avancées Sur les marges internes et externes, les graisses etc...

En bref passer d'une chaînes de lettres à une chaînes de mots correctement typés (corrigé) et "diacritisé" (accents, oe etc), nombre d'espaces régulés, idem saut à la ligne et sauts de page, alternances régulières des styles, calculs des longueurs affichables/imprimables (complexité croissante des styles) et renvoi de ligne et passage à une suite de page, puis applications en-tête et pied de page, automatisation numéro de page, commentaires indicés (à la page, à la partie), renvoi de paragraphes à la page puis passage à une suite de partie, renvoi de chapitre à la page et pages intercalaire, Table des matières, index auto et index des figures, espaces autour des figures, tomification en livres ceci pour aller jusqu'à la pleine complexification professionnelle.
J'oubliais encore la mise en colonne et la correspondance du placement des figures face au texte dans le cas des ouvrages didactiques.

On pourrait aussi s'intéresser à l'aspect recherche dynamique comme précité par Capesman, avec la recherche exacte(puis approchée), avec une comparaison signe à signe ou l'utilisation d'outils comme les expressions régulières et la norme POSIX ou le Grep et les recherches complexes.
La recherche comparaison, pourrait aussi déjà être inclue dans la mise en conformité orthographique grâce au référentiel dictionnaire.

On pourrait aussi s'intéresser à mon dada mais très utile, en situation réelle et très intéressante conceptuellement des recherches spécifiques par PHONEX ou encodages correspondants aux formes parlées du mot pour un traitement semi-auto des fotes d'hortografes ou pour les rapprochements semi-auto avec les bases de données (Duran - Durant) mais c'est une autre histoire trop longue à développer ici.

On pourrait aussi introduire en guise de correction grammaticale (problème beaucoup trop complexe en vrai), l'étude des conjugueurs en lien avec le français dans les cas les plus réguliers des premiers et second groupe, ou les temps les plus simple (imparfait), puis doucement conclure à l'intérêt de l'étude algorithmique systématique pour l'apprentissage et la généralisation de ses savoirs culturelles, mais l'inaptitude de la démarche pour gérer la complexité réelle du problème Car, bien que par le passé, je ne croyais pas qu'il fallut que nous nous résolussions à de telles extrémités, il est encore nécessaire aujourd'hui que nous nous résolvions à revenir à la comparaison avec un référentiel des formes justes pour savoir si une forme conjuguée est valide. Cependant cela mettra en exergue, que le correcteur grammaticale est loin d'être à la hauteur et à plus forte raison face à la complexité de la conjugaison française mais encore à la difficulté extrême de définir la personne, et parfois même le temps (dire au présent et au passé simple) avec l'analyseur cérébral, à fortiori par une démarche algorithmique.

Je ne rétrollerai à aucune provocation ou débat stérile, sur la trop grande complexité de ce que j'avance ici ou sur mes néologismes. Je préfère le préciser d'avance. Mais voilà j'espère avoir donné des pistes.

Forum de mathématiques - Bibm@th.net

#1 19-11-2016 08:23:22

[Info 20] - Exemples d'activité relevant du traitement ... des textes

#2 18-05-2017 16:22:59

Re : [Info 20] - Exemples d'activité relevant du traitement ... des textes

#3 18-05-2017 21:10:44

Re : [Info 20] - Exemples d'activité relevant du traitement ... des textes

#4 16-06-2017 12:39:57

Re : [Info 20] - Exemples d'activité relevant du traitement ... des textes

Réponse rapide

Pied de page des forums