Construire un corpus et obtenir des articles pertinents à partir d’une liste d’articles.

La semaine dernière, nous avons montré comment, à partir d’une liste d’URL, vous pouvez optimiser votre communication ! Cette semaine, nous allons vous montrer :

Comment créer un Corpus pour alimenter vos outils d’analyse et obtenir d’avantage d’articles pertinents à partir de votre sélection d’articles.

En d’autres termes : Comment puis-je obtenir davantage d’articles que je trouve pertinents pour mon projet d’analyse/enquête/étude ?

Comme la semaine dernière, nous préserverons la confidentialité des personnes impliquées dans ce business case en ne révélant ni les noms ni les articles originaux.

1/ Le cas : Une étude sur un regard particulier sur le Sport

Le Client est en train de réaliser une étude sur certains aspects spécifiques du Sport et nous a donné une liste de quelques articles trouvés intéressants pour s’en inspirer et en trouver d’autres pour son étude.

Il a besoin d’un plus grand nombre d’articles et, en fin de compte, d’alimenter ses outils d’analyse avec un Corpus fait et toujours à jour avec des sources pertinentes dans la lignée de sa liste d’articles.

2/ Tirer les leçons des classifications de ces articles

Comme mentionné ci-dessus, nous ne partagerons pas ces articles afin de préserver la confidentialité du client.

Voici les classifications les plus importantes et pondérées calculées à partir de la liste des articles :

3/ Création d’un corpus à partir de ces classifications

Le client nous a dit que le sport était la cible, nous allons donc demander à TrustedOut des sources spécialisées dans tous les Sports.

Et nous ajouterons la condition que ces sources couvrent une ou plusieurs des principales classifications mentionnées ci-dessus : Mode, Communication et/ou Vie numérique (Fashion, Communication and/or Digital Life)

De plus, le client veut utiliser les articles qu’il nous a donnés et trouvés en France pour explorer un nouveau marché : les États-Unis.

D’une liste d’articles français à un corpus franco-américain

Mouse over to zoom. Click to full screen

TrustedOut renvoie 59 médias, 96 sources représentant une moyenne de près de 250 articles par jour.

Voici 3 exemples de sources trouvées pour ce Corpus et leurs principaux profils respectifs au cours de la semaine passée:

Footpack

  • People › Sports › Football And Soccer | 31.8%
  • People › Lifestyle › Fashion | 21.8%
  • People › Lifestyle › Luxury | 17.2%
  • People › Sports › American Football |7.0%
  • People › Sports › Cycling | 5.9%

Complex

  • People › Lifestyle › Fashion | 14.6%
  • People › Entertainment And Leisure › Celebrities | 11.3%
  • People › Culture And Arts › Music | 10.9%
  • People › Culture And Arts › Movies | 4.9%
  • People › Entertainment And Leisure › TV And Video And WebTV | 4.0%

Highlights Football

  • People › Sports › Football And Soccer | 31.5%
  • People › Sports › Table Tennis | 19.6%
  • General › Tech › Software And OS | 12.8%
  • People › Sports › Basketball | 11.3%
  • General › Tech › Digital Life | 10.5%

4/ Pertinence des articles.

Récupérons les derniers articles de notre Corpus.

Voici à quoi ressemble le début de la liste de ces articles avec les URL, les time stamps et les classifications pour chaque article pertinent.

Sélection des articles classifiés « Mode » (Fashion) ?

La mode, comme nous l’avons vu plus haut, était la première des classifications trouvées dans la liste des articles qui nous ont été donnés.

Que diriez-vous de faire classer des articles de notre Corpus dans la rubrique Mode (Fashion)?

Il suffit de sélectionner cette classification dans la liste des articles provenant de votre Corpus TrustedOut ! Voici les deux premières :

Vous voulez les lire ?

[en Francais] Les maillots de gardiens 2020-2021 d’Umbro s’inspirent des annees 90

[in English] Best Outdoor Gear Deals of the Week | GearJunkie

Pourquoi est-ce si important ?

Le Corpus fait ou défait toute analyse.

Quelle que soit l’intelligence de votre algorithme d’analyse, si vous l’alimentez avec trop peu, trop de biais, trop d’articles dépassés, trop d’imprécisions… non seulement vous obtiendrez des résultats étranges de vos algos de génie mais, pire encore, les décisions prises à partir de lui seront mauvaises et non fiables.

Faites confiance à votre corpus pour faire confiance à vos décisions.

Nous avons partagé deux façons de construire un Corpus digne de confiance :

Création d’un corpus basé sur des critères :

TrustedOut a été conçu pour obtenir du contenu correspondant à des profils auxquels vous faites confiance dans un but précis.

Création d’un corpus basé sur des exemples :

Ces deux derniers posts qui présentent comment vous pouvez obtenir plus à partir d’une liste d’articles/URL.

Questions ? Contactez nous !

Partagez sur:

Publié par

Freddy Mini

CEO & co-fondateur