Python爬取内容怎么去掉多余信息

lewis 2017-06-29 28次阅读

要去掉爬取内容中的多余信息，可以使用字符串处理的方法，例如使用正则表达式、字符串分割、替换等方法。

以下是一些常见的方法示例：

import re

html = "<p>这是一段<b>加粗</b>的文本。</p>"
cleaned_html = re.sub(r"<.*?>", "", html)
print(cleaned_html)  # 输出：这是一段加粗的文本。

text = "这是一段文本，后面是多余的内容。"
cleaned_text = text.split("，")[0]
print(cleaned_text)  # 输出：这是一段文本

text = "这是一段包含多余信息的文本，多余信息是这个。"
cleaned_text = text.replace("多余信息", "")
print(cleaned_text)  # 输出：这是一段包含的文本，是这个。

以上是一些基本的方法，具体根据爬取内容的特点进行相应的处理。

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。