Negative Lookbehind expression régulière

Le problème exposé dans ce sujet a été résolu.

anonyme, jeudi 13 juin 2019 à 20h20

Salut les agrumes !

J’essaie de faire un remplacement dans une chaîne de caractère pour les espaces insécables en prenant en compte les remplacement HTML &, etc… Pour ça j’ai essayé cette solution :

import re

regexp = re.compile(r'(?<!&\w+);')
text = '&amp;;'
text = regexp.sub('\u202F;', text)

print('"' + text + '"')

Le problème est que le negative lookbehind (le (?<!...)) ne fonctionne qu’avec un regex de longueur défini. J’ai beau réfléchir à un workaround mais je ne trouve rien qui soit élégant comme façon de faire.

Zestement,

13/06/19 à 20h20

+0 -0

Heziode, jeudi 13 juin 2019 à 22h51

Coucou,

Ya moyen que tu nous donne (?:un|des) exemple(?:s?) d’entrée et de ce que tu veux en sortie

13/06/19 à 22h51

+0 -0

Chinoisfurax, jeudi 13 juin 2019 à 23h20

Salut,

En consommant les caractères puis en testant ta capture dans une fonction ça peut le faire :

import re

regexp = re.compile(r'(&\w+)?;')
text = 'w&scw;d;;&amp;;'
text = regexp.sub(lambda m: '\u202F;' if m.group(1) is None else m.group(1) + ';', text)

print('"' + text + '"')
// "w&scw;d ; ;&amp; ;"

13/06/19 à 23h20

+0 -0

anonyme, vendredi 14 juin 2019 à 18h46

@Heziode Je pensais à un quelque chose de simple comme e&;;.

@Chinoisfurax, j’ai réfléchi à ta solution et du coup ça donnerait :

on cherche si il y a 0 ou + occurences d’un caractère HTML &...; avec un ; après
Dans la lambda (d’ailleurs ça serait pas return\u202F;if ... car sinon le \u202F; ne sera pas communiqué à regex.sub ou c’est implicite ?), si il n’y a pas de &... (if m.group(1) is None), alors c’est qu’on a affaire à un point point-virgule sans caractère HTML. Sinon c’est que c’est un caractère HTML et donc on le remet en place (else m.group(1) + ';')

C’est bien ça que c’est censé faire. Si c’est ça alors je pense que tu as trouvé une solution ! J’essaierai dès que j’ai accès à python et j’éditerai.

14/06/19 à 18h46

+0 -0

Chinoisfurax, samedi 15 juin 2019 à 13h52
Modifié

on cherche si il y a 0 ou + occurences d’un caractère HTML &...; avec un ; après

Vanadiae

Oui, plus exactement on cherche tous les points-virgules plus les éventuels caractères précédents correspondant à des entités html pour les détecter et les exclure ensuite. En vrai il faudrait rajouter les codes de type &#\d+; pour prendre tous les cas d’entités, et exclure l’entité qui correspond à ton espace insécable à moins de la remplacer avant : re.compile(r'(&(?i:[a-z\d]+|#\d+))?(?<!&(nbsp|#160););'). Après, si ça devient plus complexe, avec des balises par exemple, il sera peut-être plus judicieux d’utiliser un parseur carrément.

Dans la lambda (d’ailleurs ça serait pas return\u202F;if ... car sinon le \u202F; ne sera pas communiqué à regex.sub ou c’est implicite ?), si il n’y a pas de &... (if m.group(1) is None), alors c’est qu’on a affaire à un point point-virgule sans caractère HTML. Sinon c’est que c’est un caractère HTML et donc on le remet en place (else m.group(1) + ';')

Vanadiae

La lambda renvoie la valeur directement, tu as saisi l’idée.

15/06/19 à 13h52
Modifié

+0 -0

anonyme, samedi 15 juin 2019 à 19h34

Ok merci de ton aide, je crois avoir compris comment faire maintenant

15/06/19 à 19h34

+0 -0

Connectez-vous pour pouvoir poster un message.
Connexion

Pas encore membre ?

Créez un compte en une minute pour profiter pleinement de toutes les fonctionnalités de Zeste de Savoir. Ici, tout est gratuit et sans publicité.
Créer un compte