HTML Clean

Neteja els caràcters HTML d'un string.

Opció 1

   1 import re
   2 
   3 def remove_html_tags(data):
   4     p = re.compile(r'<.*?>')
   5     return p.sub('', data)
   6 
   7 def remove_extra_spaces(data):
   8     p = re.compile(r'\s+')
   9     return p.sub(' ', data)
  10 
  11 data = "   <p>Test</p> prova <ul>sss"
  12 print remove_html_tags(data)
  13 
  14 print remove_extra_spaces(data)

Opció 2

   1 import re
   2 
   3 text = "<p><li>test</li></p>"
   4 
   5 def StripTags(text): 
   6      finished = 0 
   7      while not finished: 
   8          finished = 1 
   9          start = text.find("<") 
  10          if start >= 0: 
  11              stop = text[start:].find(">") 
  12              if stop >= 0: 
  13                  text = text[:start] + text[start+stop+1:] 
  14                  finished = 0 
  15      return text
  16 
  17 print StripTags(text)


CategoryPython

Python/CleanHtml (last edited 2012-06-07 06:27:41 by zikzakmedia)

Contenidos creados por el equipo de Zikzakmedia. Creative Commons By-NC-SA

PythonZikzakmedia