Ce projet a démarré à l'occasion d'un discussion sur le fil :
Livre "Géographie Ferroviaire" par Lartilleux
A lire si vous voulez connaître la genèse de l'affaire.
Le point de départ est un petit livret au format 21 x 11 cm de 204 pages. Couverture entoilée noire avec étiquette.
Nomenclature des gares françaises (grands réseaux et compagnies secondaires)
A l'usage des agents chargés du classement des colis postaux et colis de grande vitesse.

L'exemplaire en question peut être daté de 1918 ou 1919. Chaque page complète compte 60 lignes environ, la liste s'étale sur 200 pages dont plusieurs incomplètes (à la fin de chaque lettre de l'alphabet). Il compte donc de l'ordre de 11000 gares et stations.

Toutes les gares (ouvertes aux colis postaux et colis de grande vitesse) sont référencées par ordre alphabétique. Le document est complet.
Quelques remarques :
Il pourrait manquer certaines haltes et points d'arrêt non ouverts aux colis et il manque naturellement les gares des lignes ouvertes après son édition (1918 ou 1919).
Un point fort est la présence de toutes les gares des secondaires avec mention de la compagnie.
Enfin, les gares de l'AL sont portées en orthographe française, mais sans mention du département.
---------------------------------
Nous sommes actuellement six sur ce projet : Canard, Xtof.be, Chris, Prof, Le Basque.
C'est beau, mais ce sera lent. Nous cherchons des volontaires copistes.
Voici le protocole de travail
L'organisation et le nommage des fichiers
Va t'on utiliser un OCR donnant des fichiers très approximatifs (nos premiers essais, Xtof et moi) qu'il faudra retoucher à la main ou faire une saisie manuelle directe ?
Pas encore clair à ce jour.
Je propose, pour se mettre en bouche de démarrer tout de suite avec une formule de copie directe.
Il serait intéressant que chacun note son temps de saisie pour un groupe de 10 lignes, pour une page (61 lignes).
Sur quatre colonnes, en fichier Excel (on verra si les utilisateurs de Mac peuvent l'employer ...) que je préfère à Word.
Un fichier simplissime : numéro carte // nom gare // compagnie // département. Aucune mise en forme de texte.
Une feuille différente du fichier par page (c'est pour la relecture croisée).
Le fichier porte un nom normalisé : gares_ttt_a01.xls ; gares_ttt_a02.xls, etc. correspondant aux deux premières séances de travail pour la lettre A du généreux copiste "ttt". Chaque feuille dans les fichiers porte le numéro de la page (liste commençant à 5) en trois nombres : 005, 006, 007 jusqu'à 204 . Ces numéros de feuille sont donc uniques et indépendants du nom du fichier.
Avec ce système, on retrouvera toujours la page recherchée.
Pour A qui compte les pages 005 à 015, soit 11 pages, on ne sait pas a priori combien il y aura de séances de travail, peu importe.
Chaque copiste se voit attribué un trigramme :
Daniel = dan
Canard = cnr
Xtof = tof
Prof = pro (normââââl !)
Chris = crs
Le Basque = pcl (c'est bien Pascal ?)
L'ordre des opérations
1 - Scans des pages (Daniel)
2 - Envoi des scans à un copiste contributeur (CC)
3 - CC effectue la saisie et renvoie le(s) fichier(s) Ã Daniel
4 - Daniel relit (ou envoie pour faire relire et récupère) et valide les pages
5 - Daniel concatène (!) les fichiers et feuilles de chaque lettre pour en faire une feuille unique par lettre
6 - Mise ne forme du fichier final, export dans les formats usuels, dont Access
7 - Distribution des fichiers finalisés aux CC.
8 - Vente (très cher) de cahiers papier aux prochain Mondial et Expom ....., on devient riche et on s'offre du Fulgumaco (mode réaliste : on se fait une bouffe chez Mac Quick un jour de promo).
Dans un premier temps, si vous le voulez bien, je consacre mon activité aux scans et prendrai ma part de travail de copie à l'issue. (pages 005 à 025 scannées en basse résolution (inapte OCR) pour le moment.
La saisie
Numéro carré carte : on l'enregistre, a priori, même si son utilité n'est pas immédiate.
Nom gare : A copier tel quel, abréviations reproduites (St, Ste, N.D., etc.) ; si présence d'un article, le maintenir rejeté en fin, entre parenthèses. L'ordre alphabétique particulier du livret est respecté (St et Ste imbriqués, l'ordre porte sur le mot qui suit). Le renvoi (1) : non ouvert aux services postaux est utile à mentionner car il semble indiquer une halte.
Compagnies : on se rend compte que les abréviations sont peu homogènes. Il vaut mieux rester le plus proche du texte et laisser les abrégés avec la ponctuation exacte. La normalisation interviendra après avec les outils propres à Excel ou Access. Cependant retirer le point final.
Départements : en toutes lettres, retirer le point final. Garder naturellement la dénomination ancienne (Loire inférieure...). La région parisienne sera donc à détailler ultérieurement.
Voilà , 19 décembre 2005, c'est parti !
J'envoie les premiers scans demain aux copistes contributeurs.
D'ici là , vos observations et propositions sont les bienvenue, tout le monde peut participer, il n'y a que des gagnants (z'auront un fichier dédicacé).
Et merci aux courageux qui ont lu jusque là !
Edité pour changer le titre du sujet et remplacer les images aux liens rompus