假设我有一个带有<;p>和<;br>内部标签。之后,我将剥离HTML以清理标记。我怎样才能把它们变成换行符
如果有帮助的话,我正在使用Python的BeautifulSoup库
如果没有一些细节,很难确定这确实是你想要的,但这应该给你一个想法。。。它假定您的b标记被包装在p元素中
来自BeautifulSoup导入BeautifulSoup
导入类型
def将_替换为_新行(元素):
文本=“”
对于元素中的元素。recursiveChildGenerator():
如果isinstance(元素、类型、字符串类型):
text+=元素带()
elif elem.name==“br”:
text+='\n'
返回文本
page=“”<;html>;
<;车身>;
<;p>;美国,<;br>;
现在是所有好人来帮助他们国家的时候了;
<;p>;累积纳税人债务<;br>;lt;/p>;
<;p>;现在是所有好人来帮助他们国家的时候了。lt;br>;
<;/body>;
<;/html>;
"""
汤=美汤(第页)
lines=soup.find(“body”)
对于line-in-line.findAll('p'):
行=用新行替换新行(行)
打印行
运行此命令将导致
(py26_默认值)[[email protected]~]$python thing.py
美国
现在是关键时刻
是时候让所有的好人来帮忙了
他们的国家。
堆积纳税人的债务
现在是关键时刻
是时候让所有的好人来帮忙了
他们的国家。
(py26_默认值)[[email protected] ~]$