Qu. 5 - La numérisation suffit-elle
à valoriser l'information ?
Réponse AJAX

La numérisation

On utilise des scanners pour numériser les documents papiers, donc pour passer d'un support papier à un fichier informatique que l'on pourra stocker, diffuser, etc.

On obtient en général un fichier image (JPEG, GIF, TIFF, etc.) ou un document PDF (qui inclue simplement l'image). On verra au chapitre suivant qu'on peut obtenir un fichier texte.

Il existe des scanners "grand public", à partir de 60 €, et des professionnels dans lesquels on peut charger plusieurs feuilles de papier.

Lien vers les scanners sur LDLC.com

La qualité des scanners est mesurée à :

Vous avez probablement un scanner (ou une imprimante multifonctions) chez vous. Pour ce scanner, donnez la marque, le modèle, et la valeur de chaque critère cité ci-dessus.

Votre réponse n°1

La reconnaissance optique de caractères

Parfois on préfère récupérer le document au format texte, pour l'intégrer plus rapidement dans un texteur ou n'importe quel document éditable.

On applique donc un processus de reconnaissance optique de caractères (en anglais : OCR pour optical characters recognition).

C'est un processus très délicat et souvent imparfait qui consiste à essayer, pour l'ordinateur, de reconnaître les caractères présents sur l'image.

Voici à gauche un document d'origine, et à droite le même document numérisé puis passé à la reconnaissance de caractères (avec un scanner Canon MG5250 et son logiciel Canon Solution Menu Ex) .

Combien y a-t-il de mots dans le document d'origine ?

Votre réponse n°2

Combien y a-t-il d'erreurs de reconnaissance ?

Votre réponse n°3

Quelle est donc le pourcentage d'erreur par mot ?

Votre réponse n°4

L'indexation

Dans un livre, qu'appelle-t-on un index ? À quoi sert-il ?

Votre réponse n°5

Présentation

Dans le site epg.bts-sio.com, la base de données contient les tables suivantes :
table mots-clé
table index

Une recherche en "full-text" se ferait ainsi, cherchons par exemple le mot-clé assistante :

Connectez-vous à phpmyadmin.bts-sio.com avec les identifiants epg_eleve/epg_eleve, choisissez la base spastore_epg.

Dans l'onglet SQL, essayez la requête ci-dessus et notez le temps pris par la requête (phpMyAdmin vous indique ce temps).

Votre réponse n°6

Une recherche indexée se fait avec les étapes suivantes :

Le résultat renvoyé par cette requête est 113415 (clé primaire du mot-clé assistante).

L'étape suivante est de chercher les programme télé dans lesquels on trouve ce mot-clé :

Si vous n'y êtes plus connecté, reconnectez-vous à phpmyadmin.bts-sio.com , choisissez la base epg.

Dans l'onglet SQL, essayez les deux requêtes ci-dessus et notez le temps pris par chacune des deux requêtes.

Votre réponse n°7

Combien de fois la recherche indexée est-elle plus rapide que la recherche "full-text" ?

Votre réponse n°8

Donnez des exemples de sites, de fonctionnalités où la recherche indexée serait utile (donnez des exemples variés et pas que des sites Web).

Votre réponse n°9

Les métiers du référencement

Être bien classé dans les résultats d'un moteur de recherche (comme Google ou Bing) est très stratégique pour une entreprise : être bien vu, que ce soit dans la rue ou dans un moteur de recherche, permet de vendre plus.

Des entreprises (ou des salariés) sont donc spécialisées dans le référencement des sites Web.

Allez sur ce lien et notez, parmis les trois métiers qui y sont décrits, le nom de celui qui s'occupe de bien référencer un site Web.

Votre réponse n°10

Les métiers du déréférencement

Vous aussi, un jour, vous pourriez avoir besoin des services d'un déréférenceur (au tarif moyen de 50 € par page à effacer en 2014), si on tombe sur ce genre de photos quand on tape votre nom dans Google :

Les formats de documents

Les fichiers en texte brut

Un fichier en texte brut (plain text en anglais) est lisible et éditable grâce à n'importe quel éditeur de texte brut, il est donc certain qu'on ne devra pas acheter un logiciel spécifique pour accéder à ce genre de contenu.

Des exemples d'éditeurs de texte brut : Bloc-Note (de Microsoft), NotePad++ (projet OpenSource mené par Don Ho), etc.

Attention : Word de Microsoft et OpenOffice de Oracle ne sont pas des éditeurs de texte brut, mais des éditeurs de texte avec mise en forme. Il peuvent toutefois, en prenant la précaution de sauver dans le bon format, servir d'éditeurs de texte brut (mais c'est l'enclume pour enfoncer le clou).

php.ini est un fichier en texte brut :

[PHP] ;;;;;;;;;;;;;;;;;;; ; About php.ini ; ;;;;;;;;;;;;;;;;;;; ; PHP's initialization file, generally called php.ini, is responsible for ; configuring many of the aspects of PHP's behavior. ; PHP attempts to find and load this configuration from a number of locations. ; The following is a summary of its search order: ; 1. SAPI module specific location. ; 2. The PHPRC environment variable. (As of PHP 5.2.0)

La configuration de FileZilla Server est un fichier en texte brut :

<FileZillaServer> <Groups /> <Users> <User Name="spas"> <Option Name="Pass" /> <Option Name="Group" /> <Option Name="Bypass server userlimit">0</Option> <Option Name="User Limit">0</Option> <Option Name="IP Limit">0</Option> <Option Name="Enabled">1</Option> <Option Name="Comments" /> <Option Name="ForceSsl">0</Option> <IpFilter>

D'autres formats en texte brut : les fichiers HTML, CSS, XML, les codes sources (PHP, Javascript, C, etc.), les fichiers .ini, .txt, etc.

Les fichiers binaires

Les fichiers binaires sont humainement illisible lorsqu'on les ouvre dans un traitement de texte brut. Pour les visualiser et les éditer, il faudra donc passer par un logiciel approprié, qui selon le cas sera payant, gratuit ou libre.

C'est le cas systématiquement des images et des sons, des exécutables en langage machine, des archives (.zip par exemple). C'est le cas des vieux documents Word (.doc) mais pas des nouveaux (.docx après décompression).

FichierOuvert avec Bloc-NoteOuvert avec un logiciel approprié
granit.jpg
6      !1A"Qaq‘¡ð2B±ÁÑáñ#
R$3bÿÄ              ÿÄ    
       !A1QaqÿÚ   ? nW* Sݾ¢v$6ß,>|?ñ
bÈ%…U:á«”†
ìXí[ùš÷Ç£Ox__x5¯îééŽ5-ƺîÔÇ“ëŽI
te”‡VT‹{aà’m”êN}O®~ò¥vô»ÂA…
ጔY…›5æfÛIjUÜÖÜX½‰³¶>…Ñ´¢–u½öû#
·hrÓ˘2Ñå c~ÞÇn7ßì¼Ü]¥’7•b{%¦°xúb
˜FŸ¤šòÚö遈„UEZaxÏìôífÿ 
È>_Q‘ŒB"lGûuYÝ«š¡¾+Ô°@Læ”\…¡ï„‚†%
­‚EìwÀ&a‘Y…Æ’O¾2ò™œ¶jWR~âÿ 

Sur votre disque dur, trouvez un fichier en texte brut (autre que les fichiers cités ci-dessus). Notez ici son nom, et copiez ici les 5 premières lignes du fichier (ou moins, si le fichier comporte moins de 5 lignes)

Votre réponse n°11

Sur votre disque dur, trouvez un fichier binaire (autre que les fichiers cités ci-dessus) et notez ici son nom.

Votre réponse n°12

Les formats libres, ouverts

Les formats (ainsi que les logiciels) peuvent être libres : ils n'appartiennent à personne, font partie du domaine public. Personne ne peut contraindre l'utilisation du format ou exiger des redevances. Tout le monde peut librement utiliser le format, et même en diffuser des modifications.

L'avantage est l'interopérabilité et la pérénité du format : un éditeur ne peut pas "verrouiller le format" ni vendre les logiciels à prix d'or (comme c'est le cas pour les éditeurs Flash d'Adobe).

Des exemples de formats libres :

Des exemples d'applications libres :

Les formats fermés, propriétaires

Au contraire d'un format libre, un format propriétaire est la propriété d'une entreprise, qui peut le monnayer. Par exemple, les lecteurs de salon qui lisent le mp3 ou le DivX doivent payer des redevances aux propriétaires respectifs de ces formats.

Un format fermé est un format dont les spécifications ne sont pas publiées par le propriétaire du format (ce qui n'empêche pas, par rétro-enginerring et par tâtonnement, de les deviner partiellement). C'est le cas par exemple des formats vidéos du Blu-Ray Disc (c'est pour ça que la dernière version de VLC ne les lit pas), ou du format Flash d'Adobe.

L'inconvénient des formats propriétaires et fermés est que :

Des exemples de formats fermés :

Un gand standard : le XML

Voir le cours dédié au XML

La GED (Gestion électronique de documents)

La GED est un ensemble d'outils, vendu généralement "clé en main" aux entreprise, qui permet de gérer l'ensemble de leurs documents et notamment :

Le lycée Aubanel dispose, depuis 2012, d'une solution GED livrée et installée par Canon.

Liens avec l'épreuve de spécialité

Cas STMG SIG métropole septembre 2014, Transcité : question 3.4 : avantages du format XML.

Sujet zéro STMG SIG : Dans le cadre du projet de système d’information, il est désormais possible pour les usagers de rendre les documents empruntés dans n’importe laquelle des médiathèque de réseau. Le projet prévoit aussi d’améliorer la visibilité du fonds documentaire. Quels outils et techniques peuvent être mis en place pour faciliter la recherche de documents par les usagers ?

Cas STG GSI métropole septembre 2008, IPAC :question 2.1 : justifier le choix du format XML.

Cas STG GSI métropole septembre 2010, Banque Nationale, question 3.1 : expliquez pourquoi on utilise XML pour l'échange de données.