Classifications opérées par IA vs mots-clés. Partie 1/2 : Détection des orientations éditoriales.[mise à jour]

Aller au-delà d’un accès unidimensionnel au savoir.

Pendant des années, l’accès au savoir a été régi par la présence de mots-clés. Moteurs de recherche, sélection de corpus pour la business intelligence, DSPs pour la publicité en ligne, Brand Safety, Alertes de veille…

Tout est question de présence ou d’absence de mots-clés pour déclencher la sélection de contenu : Un accès unidimensionnel, basé sur des mots-clés, à la connaissance. Linéaire. Limité à 0 (absent) ou 1 (présent).

La présence des mots-clés ne perçoit pas les angles, la subtilité et les orientations prises par l’auteur (ni la sensibilité dans le temps. Les significations d’aujourd’hui sont les mêmes que celles de n’importe quel autre jour).

Par exemple, la présence de « cadeau de Noël  » (comme dans les articles ci-dessous) pourrait être « ok  » mais est-ce dans un contexte de « Défense militaire  » et « Armement  » ? Pouvez-vous maintenir des requêtes excluant tous les dictionnaires de synonymes connexes et en constante évolution et vous assurer que votre marque ne sera pas exposée ?

Après tout, un mot peut avoir plusieurs significations selon son contexte et l’heure à laquelle il est lu. Les classifications AI-Powered sont la solution :

Les classifications par IA ajoutent 2 dimensions : Orientations éditoriales et contexte temporel.

Aujourd’hui, nous allons nous concentrer sur la détection des orientations éditoriales.

La semaine prochaine, nous expliquerons la sensibilité au moment de la publication.

[Mise à jour] La deuxième partie est maintenant publiée:

Classifications opérées par IA vs mots-clés. Partie 2/2 : Evolutions dans le temps

Tous deux, Classifications par IA et mots-clés sont non-biaisés, universels et à jour. Parce que TrustedOut est opéré par IA, notre machine learning offre les mêmes garanties non-humaines, alimentées par une machine qu’un moteur de recherche.

Exemple de détection d’Orientations Editoriales: 1 événement, 2 pays, 3 articles, 10 classifications.

L’événement : prenons la Corée du Nord qui a annoncé un « cadeau spécial » pour les États-Unis.

Les 2 pays : Nous avons ensuite sélectionné 3 articles dans une recherche Google sur « North Korea Gift » pour les USA et « Corée du Nord Cadeau » pour la France.

Les 3 articles : nous avons choisi au hasard ceux de USAToday, CBSNews et Le Figaro.

Voici les 10 premières classifications établies par TrustedOut. Pour chacun des médias, nous avons ajouté comment les Orientations Politiques du média sont perçues (bêta).

USAToday

Vase or missiles? US awaits Christmas ‘gift’ from North Korea’s Kim (Vase ou missiles ? Les Etats-Unis attendent un « cadeau » de Noël de la part du Nord-Coréen Kim)

1 General › Politics › Diplomacy
2 General › Politics › International
3 Industries › Aerospace And Defense › Weapon
4 General › Politics › Military Defense
5 General › Politics › Civil Defense
6 Industries › Energy › Nuclear Power
7 Industries › Aerospace And Defense › Naval System
8 General › Politics › Administration
9 Industries › Aerospace And Defense › Aerospace Systems
10 General › Politics › Government

CBSNews

No sign of « Christmas gift » from North Korea yet, but deadline looms (Pas encore de signe de « cadeau de Noël  » de la part de la Corée du Nord, mais la date limite approche)

1 General › Politics › Military Defense
2 Industries › Aerospace And Defense › Weapon
3 General › Politics › Diplomacy
4 General › Politics › International
5 Industries › Aerospace And Defense › Naval System
6 Industries › Aerospace And Defense › Aerospace Systems
7 Industries › Aerospace And Defense › Missiles And Rockets
8 Industries › Energy › Nuclear Power
9 Industries › Aerospace And Defense › Satellite
10 Industries › Transportation › Ship

Le Figaro

Trump espère un «beau vase» au lieu d’un missile nord-coréen pour Noël

1 General › Politics › Diplomacy
2 Industries › Aerospace And Defense › Weapon
3 Industries › Aerospace And Defense › Aerospace Systems
4 Industries › Aerospace And Defense › Missiles And Rockets
5 General › Politics › International
6 General › Politics › Military Defense
7 People › Society › Opinion And Idea
8 Industries › Aerospace And Defense › Satellite
9 General › Law › International
10 Industries › Aerospace And Defense › Aircraft

Orientations Editoriales

Voici un résumé des orientations éditoriales pour les 3 articles:

Quelques remarques :

  • USAToday et Le Figaro classent la Diplomatie en tête de liste. Pour CBSNews, c’est la Défense militaire

  • Les 2 articles américains ont le même top 4. (dans un ordre différent)

  • Le Figaro n’a pas le nucléaire dans son Top 10

  • Tous ont la Défense Militaire. Seul USAToday a la Défense Civile
    Tous ont l’Aérospatiale et la Défense > Arme dans leur top 3

  • Seul le Figaro a Société > Opinion et idée et droit > International dans son top 10

  • Pour l’Industrie > Aéronautique et Défense, USAToday en a 3, CBSNews en a 4, Le Figaro en a 5 dans son Top 10.

Voici comment TrustedOut voyait l’industrie de l’aérospatiale et de la défense, en octobre dernier :

Corpus Intelligence pour une Industrie : Aérospatiale & Défense (A&D) – Octobre 2019

A suivre: Evolution avec le temps.

Comment les Classifications par IA sont sensibles au contexte de la publication : En d’autres termes, les classifications évoluent avec le temps car nos « sacs de mots » sont constamment mis à jour et pourquoi c’est important… Lire la prochaine partie.

Questions? Demandez-nous !

Classifications opérées par IA vs mots-clés. Partie 2/2 : Evolutions dans le temps

Pour la sélection de contenu : Les classifications par IA peuvent détecter les orientations éditoriales ET les évolutions dans le temps. Les mots-clés ne le peuvent pas.

Pendant des années, l’accès au savoir se résumait à la présence ou à l’absence de mots clés pour déclencher la sélection de contenu : Un accès unidimensionnel, basé sur des mots-clés, à la connaissance. Linéaire. Limité à 0 (absent) ou 1 (présent).

 

La semaine dernière, nous avons abordé le premier avantage des classifications par IA par rapport à la sélection par mots-clés, les Orientations éditoriales, et montré comment un même événement, sur 3 publications différentes, peut avoir des Orientations éditoriales différentes.

C’est une dimension supplémentaire de l’accès au savoir.

Lire le postRegardons maintenant une 3ème dimension : L’évolution dans le temps.

La perception d’un événement évolue avec le temps, de même que nos classifications par IA.

La France a connu beaucoup de mouvements sociaux avec la réforme des retraites que le gouvernement français préconise.

Depuis le début des protestations jusqu’à aujourd’hui, la perception a évolué.

Examinons le même article et la façon dont l’IA le classe à deux moments différents.

Cet article a été publié le 10 décembre 2019 :

Réforme des retraites: « Ne parler que de parcours hachés serait une erreur de diagnostic »

Le 10 décembre, la première classification était :

Nous sommes au début du mouvement, Emploi et Chômage est la classification la plus élevée:

Le 31 décembre, les premières classifications sont à présent :

3 semaines plus tard, le même article avec le même contenu est classé d’abord dans la catégorie Aînés, puis Aide sociale et, maintenant en 3ème place: Emploi et chômage

Il est clair qu’après 3 semaines de protestations, les séniors et le social sont en tête, devant l’emploi.

Comment la classification par IA peut-elle faire cela ?

Dans un article précédent, nous avons expliqué le fonctionnement de notre IA :

Comment fonctionne notre classification par Intelligence Artificielle.

Chaque nouvel article est classé comme suit :

Ce qui signifie que le jour où l’article est publié, nous utilisons des ensembles de données de classification (aussi appelés sacs de mots) du jour même.

Les ensembles de données de classification sont également mis à jour afin de se synchroniser avec chaque classification et de détecter la profondeur de l’expertise au fil du temps. Cela signifie que certains mots peuvent entrer ou sortir et avoir un poids différent au fil du temps. Cela signifie que les classifications sont définies, par défaut, pour le jour où un article est publié mais peuvent être relancées un autre jour et produire une classification différente. Comme dans la vie réelle, votre perception de quelque chose évolue avec le temps.

Pourquoi c’est très important.

Tout simplement parce que le temps est une dimension vitale de la perception.

S’appuyer simplement sur la présence de mots-clés pour sélectionner du contenu pour l’analyse, exposer votre marque via la publicité etc… est dangereux.

Ce qui est vrai au moment de la publication peut ne plus l’être au moment de l’analyse, ou de l’exposition de votre marque dans une publicité…

Dans l’exemple ci-dessus, vous pouvez vouloir ou non des articles sur les « Séniors ». Au moment de la publication, l’article était sous le radar, 3 semaines plus tard, il est classé comme « Séniors « . Est-ce que c’est encore là que votre marque veut être exposée ? est-ce que ce contenu est celui que vous voulez analyser aujourd’hui ? est-ce que ces articles sont importants pour l’éducation de vos équipes ?

S’appuyer sur des mots-clés, qui sont présents dans le contenu pour toujours, non seulement ne vous donne pas l’orientation éditoriale du contenu mais n’est pas sensible à l’évolution de la perception et comme nous le savons :

Perception is reality.

Questions? Demandez-nous !

C’était 2019.

Tout d’abord, nous voulions vous souhaiter, non seulement une bonne année 2020, mais aussi une excellente décennie ! Joyeuses années 20 !

Par conséquent, alors que les années 10 se terminent, regardons…

Le Top 10 des posts de 2019

Par ordre de publication antichronologique. [voir tous les posts]

#1. Notre vision. Trusted Content as a Utility.

Accès universel aux contenus de confiance

#2. Ce que TrustedOut apporte a une Industrie.

Corpus Intelligence pour une Industrie : Lifestyle – Octobre 2019

#3. Comment TrustedOut compare les couvertures médiatiques.

Media Coverage Market Shares US vs France – Source TrustedOut – 10/01/19

#4. Faîtes du Commerce ET du Branding. Pas l’un ou l’autre.

Faîtes du commerce ET, PAS OU, gérez l’image de votre marque. (et fixez la sécurité de la marque, SEO risqué etc…)

#5. Attention, Sécurité de la marque ne signifie pas Qualité.

Brand Safety, l’indicateur de qualité le plus trompeur qu’un annonceur puisse utiliser.

#6. Rien ne doit compromettre la cohérence de votre marque.

Ne laissez pas la publicité compromettre la cohérence de votre marque.

#7. Ce que l’on dit sur TrustedOut.

Ils disent de nous. [update #2]

#8. Comment notre magie fonctionne.

Comment fonctionne notre classification par Intelligence Artificielle.

#9. Notre tout 1er partenariat.

Le partenariat TrustedOut + Digimind. C’est officiel.

#10. Surtout ne confondez pas Information et conversation.

Obtenez de l’information des médias traditionnels, ayez une conversation sur les médias sociaux. Pas l’inverse.

Comme toujours, si vous avez des questions? Dîtes le nous !

Écoutez et Surveillez les sources dans lesquelles vous avez confiance – TrustedOut et les lecteurs RSS.

Lisez ce qui se passe dans votre Corpus.

Disons que vous aimeriez écouter et surveiller les sources Spécialisées dans le sport automobile aux Etats-Unis.

Votre requête Corpus ressemblera à ceci dans TrustedOut :

Cliquez sur [Get] pour avoir un aperçu de ces 21 flux (sources) à partir de ces 10 médias spécialisés

Et téléchargez le fichier OPML de votre Corpus

Vous allez obtenir ce fichier (téléchargez et essayez le)

Download OPMLLisez votre Corpus avec votre lecteur RSS.

Si votre choix n’est pas encore fait, il existe beaucoup d’excellents lecteurs RSS. En voici 2:

Exemple #1: Feedly

Trouvez « Organize Sources » et cliquez sur « Import OPML »

Sélectionnez le fichier OPML ci-dessus et lisez !…

Exemple #2: Inoreader

Allez à Subscriptions > Manage Subscription > Import/Export et séléctionnez le fichier OPML de votre Corpus (faites un test avec le fichier ci-dessus)

Il ne vous reste plus qu’à lire…

Recherchez dans les articles, créez des alertes, des newsletters….

Nos 2 exemples ci-dessus offrent à la fois des recherches (Inoreader l’offre avec le compte gratuit), des alertes et même des newsletters d’équipe.

Obtenez votre sélection de sources dans lesquelles vous avez confiance avec TrustedOut et profitez de la lecture, la recherche, l’alerte et la diffusion avec votre choix de lecteur RSS….

Questions? Dîtes-nous !

 

Accès universel aux contenus de confiance

[Mise à jour du titre, grâce à une meilleure traduction de la version anglaise « Trusted Content as a Utility ». Merci a tous pour votre aide et vos suggestions !]

La méfiance à l’égard des médias est un très, très gros problème.

La méfiance à l’égard des médias est un problème partout. Alors que la confiance dans les médias aux États-Unis s’est stabilisée autour de 40 % (qui font confiance), elle était de l’ordre des 70 % en 1970. La situation est et est de pire en pire en Europe, comme le dit cet article de Libération :

« Si l’on observe également une tendance à la baisse entre 2% et 4 % dans la plupart des pays européens, la France connaît la chute de confiance la plus importante. Surtout, avec seulement 24 % des Français qui font confiance aux médias, le pays est 37e sur 38, juste devant la Corée du Sud (22 %). À titre de comparaison, le taux de confiance s’élève à 47% en Allemagne ou 40% au Royaume-Uni. »

Pas de confiance dans le contenu, Pas de confiance dans les décisions qui en découlent.

Pouvez-vous imaginer parier votre avenir, l’avenir de votre entreprise, sur des contenus auxquels vous ne faites pas confiance ?

Pouvez-vous imaginer afficher votre marque, la marque sur laquelle vous avez passé des années à bâtir le respect et la confiance, dans un environnement que vous ne connaissez pas, qui ne correspond pas aux valeurs de votre marque ?

Pouvez-vous imaginer que votre équipe de relations publiques puisse écouter les médias sans comprendre le profil de ces médias ?

C’est le motto de TrustedOut. La raison de notre nom : « If it’s not trusted in, it cannot be trusted out. »

L’accès aux contenus de confiance devrait être comme l’eau ou l’électricité: une « Utility* ».

Vous avez besoin d’eau. Vous ouvrez le robinet. Vous ne testez pas l’eau. Vous avez confiance. Vous l’utilisez simplement quand vous en avez besoin. Quand vous voulez. N’importe quand.

Vous avez besoin d’électricité, vous l’allumez. Vous ne testez pas le système électrique. Vous l’utilisez simplement quand vous en avez besoin. Quand vous voulez. N’importe quand.

Imaginez que l’accès aux contenus de confiance soit aussi simple.

Vous avez besoin de contenu fiable. Vous ouvrez TrustedOut, vous définissez ce en quoi vous avez confiance et vous obtenez. Vous l’utilisez simplement quand vous en avez besoin. Quand vous voulez. N’importe quand.

Nous offrons maintenant un accès illimité à TrustedOut, de sorte que l’accès au contenu auquel vous faites confiance soit simple, illimité et toujours accessible.

Définissez le contenu dans lequel  vous avez confiance pour chaque segment de votre entreprise.

Voici un exemple d’entreprise organisée par l’industrie. S’applique également à tout autre type d’entreprise.

En savoir plus ?
Contactez-nous !

Les gouvernements devraient-ils s’occuper des fausses nouvelles ?

Dans cet article, « Singapore vient juste d’utiliser sa loi sur le fake news. Les critiques disent que se produit ce qu’ils redoutaient (en anglais)« , CNN Business explique pourquoi la nouvelle loi anti-fake news de Singapour a produit ce qu’ils craignaient le plus :  » une censure accrue et des abus officiels dans un pays où la liberté d’expression est déjà sous pression « , ajoute-t-il : « Les événements de cette semaine suggèrent que ces craintes sont justifiées. »

« comme requis par la loi Singapourienne. »

Nous ne débattrons pas des deux articles sous la loupe du gouvernement de Singapour, mais plutôt d’une chose très importante pour nous :

La censure doit être et rester personnelle.

Il est toujours dangereux de laisser à quelqu’un ce qu’on peut lire et ce qu’on ne peut pas lire.

Les rapports de CNN : « Les ministres du gouvernement peuvent décider d’ordonner qu’une information jugée fausse soit retirée ou d’exiger qu’une correction soit apportée à l’information. Ils peuvent également ordonner à des entreprises comme Facebook (FB) et Google (GOOGL) – qui se sont toutes deux opposées au projet de loi – de bloquer des comptes ou des sites diffusant de fausses informations.

Le gouvernement peut également poursuivre des individus avec des amendes allant jusqu’à 50 000 dollars de Singapour (environ 36 000 dollars) et/ou jusqu’à cinq ans de prison. Si la prétendue fausseté est affichée en utilisant « un compte en ligne non authentique ou contrôlé par un robot », l’amende potentielle s’élève à 100 000 dollars de Singapour (environ 73 000 $), et/ou jusqu’à 10 ans de prison.

Les entreprises reconnues coupables de diffusion de soi-disant fausses nouvelles sont passibles d’amendes pouvant atteindre 1 million de dollars Singapouriens (environ 735 000 dollars). »

Encore une fois, nous, TrustedOut, ne défendons pas la diffusion de fake news ou de tout contenu offensant, mais nous croyons que, pour la plupart, les news peuvent être considérées comme fake pour certaines personnes et non comme fake pour d’autres, donc, la censure devrait être et rester personnelle.

Obtenez de l’information par les médias traditionnels, ayez une conversation sur les médias sociaux. Pas l’inverse.

Dans un article précédent, nous avons écrit :
« La désinformation et les préjugés infectent les médias sociaux, intentionnellement et accidentellement. Cet article fortement recommandé de The Conversation expose 3 types de biais identifiés par l’Université de l’Indiana. Voici ce que nous avons retenu…. Continuer la lecture

Confiance, médias et démocratie

À ce sujet, nous avons également écrit sur l’excellent rapport de la Fondation Knight.

L’Institut Aspen et la Fondation Knight ont récemment publié un rapport sur une commission qu’ils ont organisée sur la confiance, les médias et la démocratie. Bien que venant d’Amérique, nous pensons que la plupart peuvent s’appliquer plus largement.

Si vous n’avez pas le temps pour le rapport de longueur, cette page moyenne est très intéressante. Voici nos plats à emporter à la lumière de nos articles précédents, regroupés en 3 grandes catégories :

10 façons de rétablir la confiance dans les médias et la démocratie…  Continuer la lecture

Définissez le contenu dans lequel  vous avez confiance pour chaque segment de votre entreprise.

Voici un exemple d’entreprise organisée par l’industrie. S’applique également à tout autre type d’entreprise.

En savoir plus ?
Contactez-nous !

Parler le Google.

Dans cet article de Wired (en anglais), Devin Nunes and the Power of Keyword Signaling, l’auteur explique comment les discours politiques peuvent être modifiés pour jouer avec les moteurs de recherche.

Parler pour Google.

Les citations utilisant une partie de ces discours réutiliseront, pour être exactes, les mots-clés optimisés pour les moteurs de recherche, tels que Google et les autres. Ces mots-clés devraient donner des résultats où le candidat et le parti politique auront de meilleurs résultats, plus élevés, à la 1ère page.

Propagande dans les pages de résultats.

Ces mots-clés, lorsqu’ils seront recherchés dans Google seront soit ceux d’un concurrent où la confusion peut être introduite, mais certains seront habituels dans un contexte ou périmés ou simplement fabriqués. Plus ils sont uniques, plus le référencement sera efficace. Rares sont les mots-clés qui, lorsqu’ils sont recherchés, renvoient peu de pages à faible inventaire où l’équipage du candidat aura une grande partie des pages prêtes.

Parler le Google.

Mieux, les mots utilisés dans un discours seront perçus comme appartenant à une orientation politique spécifique. De cette façon, le résultat est optimal :

  • Poussez le candidat
  • Poussez le point du candidat avec différenciation par rapport aux autres
  • Poussez le parti et augmentez le bipartisanisme

Le remède : Surveiller qui publie.

Obtenir des nouvelles d’un moteur de recherche est très risqué. SEO techniques expliquées ci-dessus et ici dans un post précédent :

Mots-clés (Données) Vides : Désinformations via Google et Bing.

La solution est la même que pour les entreprises : Obtenez du contenu, et donc de l’éducation, auprès de médias en qui vous avez confiance.

Votre business dépend du contenu dans lequel vous avez confiance.

Des questions? Contactez-nous !

Le must-have du marketeur : Rapports et comparaisons de Media Sources

Disons, à titre d’exemple aujourd’hui, que vous êtes à la recherche d’un média « culinaire », en France, auquel associer votre marque.

1. Sélectionnez vos partenaires médias potentiels

Critères: La France et les Français. La taxonomie pour culinaire est « Eating and Drinking ». Nous sélectionnerons « Covered » pour les médias couvrant ce sujet et le mois passé, pour une taxonomie plus stable que les 7 derniers jours.
TrustedOut propose 40 médias et 60 sources, 214 articles par jour et 43 000 articles dans les archives. La création de Corpus ressemble à ceci :

Cliquez sur « Get » et nous obtenons Médias et Sources.

Un clic sur un média montre comment/si le média est perçu pour des contenus toxiques et des orientations politiques.

2. Approfondissons les deux que vous avez choisis.

Dans la liste des médias, vous voulez plus d’informations sur deux d’entre eux : Le Figaro Gastronomie et Elle A Table.

Un clic sur une source montre les tendances dans les classifications [ 1 ], semaine vs mois et mois vs trimestre, ainsi que les classifications supérieures par période de temps.

3. Obtenez un rapport instantané sur une source média

Pour chaque source, cliquez sur le bouton « Report », [ 2 ] dans la capture d’écran ci-dessus, et recevez le rapport en format PDF :

Le Figaro – Gastronomie
ELLE – ELLE A TABLE

Attention : Le timestamp du rapport est très important car les données sont mises à jour en permanence.

4. Comparaison de 2 profils de sources

[beta]

En comparant les profils, vous pouvez définir ce qui convient le mieux à vos opérations.

Questions ? Contactez-nous !

 

Créez un corpus à partir d’une liste d’articles (ex. ici : populaire sur Facebook).

Vous souhaitez créer un Corpus of Media pour vos analyses sémantiques et/ou une liste blanche de médias similaire à une liste d’articles ?

Voici comment la Corpus Intelligence peut vous aider en 3 étapes :

#1. Collectez articles et publishers.  

Commençons par une liste d’articles populaires : Aujourd’hui, le Top 15 des articles les plus engagés sur Facebook en septembre 2019

Dans cet article on peut trouver le top 15 des articles de Facebook en Septembre 2019 :

Table to show the top 15 web stories on Facebook in September 2019, ranked by engagement

#2. Comprenez les Profiles des publishers de ces articles.

A partir de la liste ci-dessus, nous avons rassemblé les profils des médias correspondants.

Ces publishers font apparaitre ces 30 classifications les plus populaires de notre taxonomie AI à 3 niveaux.  

Cela signifie que les sujets suivants sont les plus populaires :

  1. Politics
  2. Law
  3. Entertainment and Leisure
  4. Lifestyle
  5. Society 

Le calcul des scores C.scores donne précisément les classifications à cibler.

#3. Créez et gérez vos Corpus.

Le plus dur est fait. Jouons maintenant avec TrustedOut :

Vous voulez tous les médias en politique et en droit ? Les voilà :

Vous voulez cibler les médias dédiés à la 1ère classification, International, en politique ? Voila :

A partir de la, alimentez votre outils d’analyse sémantique et/ou générez vos whitelists pour votre serveur de publicité.

Questions? Contactez-nous !