Ubuntu 18.04系统安装BeautifulSoup库

lewis 2021-02-05 25次阅读

本文目录导读：

<"http://#id1" title="安装Python和pip" "">安装Python和pip
<"http://#id2" title="使用pip安装BeautifulSoup库" "">使用pip安装BeautifulSoup库
<"http://#id3" title="验证安装" "">验证安装
<"http://#id4" title="使用BeautifulSoup库进行网页抓取和解析" "">使用BeautifulSoup库进行网页抓取和解析

在Ubuntu 18.04系统中，安装BeautifulSoup库需要遵循以下步骤，确保您的系统已经更新到最新版本，以便能够顺利安装新软件包。

安装Python和pip

在Ubuntu 18.04上，Python已经预安装，但如果没有安装pip（Python的包管理器），则需要先安装它，您可以使用以下命令来安装Python和pip：

sudo apt update
sudo apt install python3 python3-pip

这将更新软件包列表并安装Python 3和pip。

使用pip安装BeautifulSoup库

一旦您已经安装了pip，就可以使用它来安装BeautifulSoup库，在终端中运行以下命令：

pip3 install beautifulsoup4

这将使用pip3来安装BeautifulSoup库，请注意，我们使用python3而不是python来指定Python版本，因为Ubuntu 18.04默认使用Python 2，而我们需要使用Python 3。

验证安装

安装完成后，您可以通过编写一个简单的Python脚本来验证BeautifulSoup库是否成功安装，创建一个名为test.py的文件，并将以下代码**到文件中：

from bs4 import BeautifulSoup
创建一个简单的HTML文档
html_doc = """
<html><head><title>测试页面</title></head>
<body>
<p class="title"><b>标题</b></p>
<p class="story">这是一个测试故事。</p>
</body>
</html>
"""
创建一个BeautifulSoup对象并解析HTML文档
soup = BeautifulSoup(html_doc, 'html.parser')
打印解析后的HTML文档
print(soup.prettify())

保存文件后，在终端中运行以下命令来执行脚本：

python3 test.py

如果一切正常，您应该能够看到解析后的HTML文档输出到终端中，这表明BeautifulSoup库已成功安装在您的Ubuntu 18.04系统上。

使用BeautifulSoup库进行网页抓取和解析

一旦您成功安装了BeautifulSoup库，就可以开始使用它来抓取和解析网页内容，以下是一个简单的示例，演示如何使用BeautifulSoup库从网页中提取文本：

确保您已经安装了requests库，如果尚未安装，请使用以下命令进行安装：

pip3 install requests

接下来，创建一个名为web_scraping.py的文件，并将以下代码**到文件中：

import requests
from bs4 import BeautifulSoup
发送HTTP请求获取网页内容
url = 'https://example.com'  # 替换为您要抓取的网页URL
response = requests.get(url)
response.raise_for_status()  # 检查请求是否成功并处理错误（可选）
html_doc = response.text  # 获取网页的HTML内容作为字符串存储在变量中
创建一个BeautifulSoup对象并解析HTML文档
soup = BeautifulSoup(html_doc, 'html.parser')
使用CSS选择器查找要提取的元素（例如标题）并打印结果
title_tag = soup.select('title')[0].text  # 提取标题并打印出来（可选）
print('标题:', title_tag)  # 如果存在标题的话，将其打印出来（可选）