WEB SEMANTIQUE / INDEXATION DES FICHIERS

 

Compte rendu

 

Remonter

 

C'était notre première conférence/débat dans les murs du Centre Culturel Bellegarde ; nous avions à coeur de la réussir !

Pierre Sauvage, directeur du Centre, n'a pas manqué de venir conforter notre installation. Nous le remercions encore de la qualité de son écoute et l'attention dont il fait preuve à notre égard. 

Nous remercions également Gérard Coulon, Directeur du Service de l’Animation Socioculturelle à la Mairie de Toulouse et ami de notre club dont il suit les activités de longue date est également pour sa présence dans l'auditorium pour notre première à Bellegarde.

Le plateau était parfaitement équilibré grâce aux efforts de tous et tout particulièrement à l'action d'Isabelle Cargol qui a introduit, après la présentation du Club par notre président, les intervenants.

Sandrine Bertrand, professeur au Lycée Saliège, expert en référencement, chef de projet 'Référencement naturel' a introduit le débat en brossant les grandes caractéristiques du problème : référencer des milliards de pages du web et permettre à chacun de retrouver, par une logique de recherche naturelle, ses centres d'intérêt. Très vite le discourd converge vers GOOGLE, leader incontesté (du moins en Europe) de l'indexation des pages du web. On estime à 200 x 10 puissance 9 le nombre de pages et à 120 ou 130 x 10 puissance 9. On estime à environ 500 millions de visites par mois. Google met à jour l'index 1 fois par mois (vérification des pages, ajout des nouvelles, et mise à jour des data-centers). On appelle cette opération la 'GOOGLE dance' ! Aujourd'hui GOOGLE est en temps réel. Sa fréquence de visite dépend de la fréquence des mises à jour par les utilisateurs. 

Chaque page indexée reçoit une note entre 0 et 1 (page rank) sachant que le Sigma des pages ranks est égal à 1.

Lorsque l'on lance une recherche, GOOGLE vous propose quelquefois un nombre de pages désarmants; il faut savoir qu'à partir de la 3ème page les indications deviennent non-pertinentes rapidement. Sandrine poursuit ensuite son exposé sur l'utilisation évolué de GOOGLE.

 

 

 

Jean-Philippe Horard, responsable Marketing & Développement HOYADO poursuit l'exposé et l'oriente sur la notion de référencement payant en soulignant le fait qu'internet est un média de masse et prend une ampleur sans précédent. Les ventes sur internet atteindront 40% des transactions dans peu de temps et aujourd'hui 21 millions de personnes en France pratiquent des achats en ligne. Le référencement en 2008 correspond en 2008 à 2 milliards d'euros de chiffre d'affaires pour Google qui est très confiant face à la crise. Pour mémoire le chiffre d'affaire de eBay est de l'ordre de 180 millions d'euros. Il nous explique que les pages de recherches Google sont partitionnées en zone de référencement naturel et en zone de référencement payant. L'annonceur dans cette dernière zone n'est facturé qu'en cas de 'clic'. L'énorme avantage pour les annonceurs est de connaître le nombre de personnes qui ont vu, qui ont lu, qui ont cliqué ou acheté. Le retour sur investissement est clair et facile à quantifier et ceci pratiquement en temps réel. Les positionnements dans ces zones payantes sont aux enchères ! 

Les pages affichées aujourd'hui sont adaptées à la localisation du pc de l'utilisateur (Géolocalisation par l'adresse IP). De plus on peut planifier les annonces et gérer ainsi au quotidien le marketting. 

On a donc grâce à Jean-Philippe un éclairage beaucoup plus business que l'image de la gratuité que GOOGLE cherche à donner au public. 

Eric Castex, CHEF DE SERVICE ADIM, ATELIER DE DEVELOPPEMENT INFORMATIQUE MULTIMEDIA à l'UNIVERSITE TOULOUSE LE MIRAIL, poursuit la présentation en parlant des aspects de la recherche et des langages qui se développent. En observant que lors d'une recherche, on ne dépasse que très rarement la 3ème page. Il est donc important de mieux formuler sa requête  et considérant :

- l'aspect communicationnel
- l'aspect informationnel
- l'aspect fonctionnel

La création systématique de langages standards (se voulant universels) permet de rassembler plus facilement les informations. Rappelons l'utilisation du langage XML, puis HTML indépendant de la machine, suivi du XML puis le W.S. s'appuyant sur des métadonnées.

 

Maître Alexandrine Panz poursuit en orientant son propos sur les limites de ce que l'on peut publier sur le net et sur la protection des données personnelles sur le web.

Notre loi sur la presse, bien qu'ancienne, s'applique bien entendu aux écrits sur le net comme pour un journal. Le loi (CNIL) de 2004 est censée nous protéger et interdit l'identification des personnes à l'aide des données enregistrées directement ou indirectement. Mais il faut être très méfiant vis à vis de toute collecte cachée de données (jeux, loteries où l'on vous demande constamment de donner votre adresse). Ces données collectées constituent des fichiers qui sont négociés et voyagent allègrement de par le monde.

Une directive européenne établit :

- un droit de rectification
- un droit d'opposition
- un droit d'effacement
- un droit de réactualisation

Maître Panz nous suggère de faire activer notre droit pour les mails non souhaités et demandant leur suppression et en actionnant la CNIL si nécessaire. La CNIL est très vigilante et doit faire respecter la loi. Elle veille à protéger les personnes des intrus et des personnes malveillantes.

Pour le contenu, les auteurs entre sous le contrôle de la loi sur la presse de 1881. L'hébergeur, n'est responsable que si on lui indique la présence d'un problème, il est alors obligé d'agir. Le F.A.I. lui n'a pas de responsabilité pour ce qui concerne le contenu.

Les données de connexion ne doivent pas être stockées plus d'un an. Mais GOOGLE garde ses données ... très longtemps. Il peut cependant effacer sa mémoire cache.

    

Notre déléguée général du Comité Technique du Club, Martine Blaquière, a apporté la conclusion en évoquant l'INA et le vaste problème d'indexation des productions audiovisuelles des chaînes nationales et l'évolution des techniques d'indexation dans cette organisation.

Le débat s'est poursuivi dans la salle par les questions du public très intéressé par ces aspects souvent peu pris en compte par les utilisateurs. On a noté le souci constant de la protection des données personnelles de la par du public.

André Bourricaud, président du Club Audiovisuel, a apporté sa conclusion à cette première réunion en remerciant les intervenants, les félicitant pour la qualité de leur présentation. Il a remercié également le Centre Culturel Bellegarde, son directeur Pierre Sauvage pour la qualité de son accueil et le personnel technique pour le bon fonctionnement de l'auditorium et a donné rendez-vous au public pour la conférence suivante sur la presse régionale/ les radios et télés régionales/les infos régionales sur le web le jeudi 28 mai à 18 heures auditorium de Bellegarde.