Extraire les informations d'un article

Le problème exposé dans ce sujet a été résolu.

Bonjour,
J'aurais souhaité savoir comment Telegram (par exemple) extrais les données de n'importe quel lien qu'on envoi ? Comment fait-il pour savoir où est le titre de l'article, où est le contenu de l'article, où est l'image de l'article, etc. ?
Voici une image d'exemple :

Exemple avec un article du Figaro dans Telegram

Merci de votre aide !

Salut,

C'est une page web, donc de l'HTML, donc ça se cache probablement dans la source. Par exemple l.23-26 :

1
2
3
4
<meta property="og:title" content="Les explosifs des attentats de Paris fabriqués à Bruxelles"/>
<meta property="og:image" content="http://i.f1g.fr/media/figaro/orig/2016/01/08/XVMc8486e5a-b624-11e5-a082-fca1fbadc47a.jpg"/>
<meta property="og:url" content="http://www.lefigaro.fr/international/2016/01/08/01003-20160108ARTFIG00345-les-explosifs-des-attentats-de-paris-fabriques-a-bruxelles.php"/>
<meta property="og:description" content="Des gilets et une empreinte de Salah Abdeslam ont été retrouvés."/>
+0 -0

D'accord. Alors non, ils n'ont pas tous ces tags.

Sans exemple on peut pas trop t'aider. Ou alors tu ne poses pas les bonnes questions, du coup je vais t'aider autrement : pourquoi tu veux savoir comment Telegram fait ça ?

+0 -0

Ce serait pour faire la même chose sur un site web (un peu LXML et de Python3 et le tour est joué !).

Je pige pas, pourquoi tu l'as pas dit ? C'est quoi l'intérêt de poser une question du genre "Comment fait X pour faire Y" plutôt que demander "Comment faire Y (exemple X)" ? :)

Sinon, ce que tu veux faire s'appelle "web data extraction". Il existe plusieurs solutions SaaS :

Et certainement un bon nombre de solutions open source également.

Si tu veux programmer ça toi-même, je te recommande d'utiliser en priorité les og:. Et si ça échoue, regarde comment font les trucs du genre readability et compagnie.

+0 -0
Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte