PHP正则表达式如何高效地过滤并提取HTML标签属性？_正则表达式

php正则表达式如何高效地过滤并提取html标签属性？

利用php正则表达式高效处理html标签属性

在php中处理html内容时，常常需要提取特定标签的属性值，例如style、class、href、target、alt等。同时，我们也需要去除一些不必要的属性，例如潜在风险属性onload等，以增强安全性。

问题：

如何编写一个php函数，能够有效地过滤html代码，提取指定的属性，并去除诸如onload之类的有害属性？例如，对于12313123 ，只保留style和class属性，去除onload属性。

解决方案：

直接使用单个正则表达式匹配所有目标属性并同时去除不需要的属性，会使正则表达式过于复杂且难以维护。更有效的方法是采用两步走策略：

去除不需要的属性： 使用正则表达式去除所有以on开头的属性（例如onload、onclick等）。
提取需要的属性： (此步骤可根据需求使用正则表达式或其他方法，此处略去，因为题目重点在于去除有害属性)

以下代码演示了如何使用正则表达式去除on开头的属性：

$html = '<strong class="123" onload="asdasdas()" style="white-space: normal;">12313123 </strong><div class="ccc">aaaaa</div>
<p style="white-space: normal;">bbbbb</p>
<strong class="123" onload="asdasdas()" style="white-space: normal;">12313123 </strong>
<strong onload="\'asdasdas()\'">eeeeee </strong><a class="aaaa" href="https://www.php.cn/link/56613d94c5eec17e84ddc87eb39b72ea" target="_blank">链接链接</a><p>ffff</p>';

$pattern = '/\bon\w+=([\'"]).*?\1/mi'; // 匹配并去除所有以on开头的属性
$cleanedhtml = preg_replace($pattern, '', $html);

echo "清理后的html代码：\n" . $cleanedhtml;

登录后复制

代码解释：

/\bon\w+=([\'"]).*?\1/mi：这个正则表达式匹配以on开头的属性。
- \b: 单词边界，确保匹配的是完整的属性名。
- on\w+: 匹配on后跟一个或多个单词字符的属性名。
- ([\'"]): 捕获属性值引号（单引号或双引号）。
- .*?: 非贪婪匹配属性值内容。
- \1: 反向引用，确保属性值引号匹配。
- m: 多行模式，使^和$匹配每一行而不是整个字符串。
- i: 大小写不敏感模式。
preg_replace($pattern, '', $html): 将匹配到的部分替换为空字符串，从而去除不需要的属性。