C#实现轻松从HTML中提取纯文本_网页播放器

一.介绍

处理 html 内容通常需要提取纯文本以进行处理、分析或显示，而不会产生 html 标记的杂乱。在本博客中，我们将探索一种简单而有效的方法，即使用 c# 中的正则表达式 (regex) 来剥离 html 标记并将 html 实体解码为纯文本。此技术在读取网页抓取内容、清理电子邮件格式或为机器学习预处理准备文本数据等场景中特别有用。

二.问题陈述

html 内容是为网络浏览器设计的，不适用于直接的文本处理。由于 html 标签的嵌套和复杂性质，仅提取文本部分可能很棘手。开发人员需要一种可靠的方法来高效地将 html 转换为纯文本。

三.解决方案概述

我们将使用 c# regex.replace 方法删除 html 标签，并使用 system.net.webutility.htmldecode 将 html 编码实体解码为其文本等效项。此方法提供了一种从 html 中提取干净文本的快速而准确的方法。

四.定义文本提取方法

首先，我们将创建一个接受包含 html 的字符串并返回清理后的纯文本字符串的方法。

代码演练

using system;
using system.text.regularexpressions;

public class program
{
    public static void main()
    {
        // 定义一个包含 html 内容的字符串
        string htmlcontent = "<p>hello <b>world!</b></p>";
        
        // 调用 extracttextfromhtml 方法从 html 中提取纯文本
        string plaintext = extracttextfromhtml(htmlcontent);
        
        // 输出提取的纯文本内容
        console.writeline(plaintext); // 输出: hello world!
    }

    // 定义一个从 html 中提取纯文本的静态方法
    public static string extracttextfromhtml(string html)
    {
        // 如果输入的 html 字符串为空，返回空字符串
        if (html == null)
        {
            return "";
        }

        // 使用正则表达式替换所有 html 标签为一个空格
        string plaintext = regex.replace(html, "<[^>]+?>", " ");
        
        // 解码 html 实体并去除前后空格
        plaintext = system.net.webutility.htmldecode(plaintext).trim();

        // 返回处理后的纯文本
        return plaintext;
    }
}