13人参与 • 2025-03-30 • 正则表达式
利用php和curl高效抓取新闻列表及详情
本文详细阐述如何运用php和curl从目标网站获取新闻列表和新闻详情。主要难点在于:目标网站新闻列表页面的链接为相对路径,需将其转换为绝对路径;以及需要二次抓取,获取新闻详情页的内容。
首先,我们用curl获取列表页的html源码。以下代码演示如何用curl获取页面内容,并用正则表达式提取新闻标题和相对路径:
$ch = curl_init(); curl_setopt($ch, curlopt_url, 'http://www.xx.com/news'); // 请替换为实际的列表页url curl_setopt($ch, curlopt_referer, 'http://www.xx.com'); // 设置referer,模拟浏览器访问 curl_setopt($ch, curlopt_useragent, "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/86.0.4240.198 safari/537.36"); curl_setopt($ch, curlopt_returntransfer, 1); curl_setopt($ch, curlopt_ssl_verifyhost, 0); curl_setopt($ch, curlopt_ssl_verifypeer, 0); $html = curl_exec($ch); curl_close($ch); // 使用正则表达式提取新闻标题和相对路径 preg_match_all('/<a href="https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c" title=".+?">https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c<\/a>/', $html, $matches); $newslist = []; foreach ($matches[0] as $key => $value) { $newslist[] = [ 'title' => trim($matches[2][$key]), 'relative_path' => $matches[1][$key] ]; }
这段代码先用curl获取列表页的html内容。然后,它使用正则表达式/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/匹配标签,提取href属性值(相对路径)和标签内的文本(新闻标题)。 请注意,正则表达式需要根据实际html结构调整。
接下来,我们将相对路径转换为绝对路径,并用curl获取新闻详情页的内容:
$baseurl = 'http://www.xx.com'; // 请替换为实际的网站根域名 foreach ($newslist as $news) { $fullurl = $baseurl . $news['relative_path']; $ch = curl_init($fullurl); // ... (重复之前的curl设置) ... $detailhtml = curl_exec($ch); curl_close($ch); // 使用正则表达式提取新闻内容 preg_match('/<div class="content text-xs">https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c<\/div>/', $detailhtml, $contentmatch); // 调整正则表达式以匹配新闻内容 $newscontent = isset($contentmatch[1]) ? trim($contentmatch[1]) : ''; // 输出新闻标题、完整路径和内容 echo "标题: " . $news['title'] . "<br><br>"; echo "链接: " . $fullurl . "<br><br>"; echo "内容: " . $newscontent . "<br><br><br>"; }
这段代码遍历$newslist数组,将每个新闻的相对路径转换为绝对路径,然后用curl获取详情页的html内容。接着,它使用另一个正则表达式提取新闻内容。 同样,这个正则表达式也需要根据实际html结构调整。最后,它输出新闻标题、完整路径和内容。
请注意,代码中使用的正则表达式仅为示例,实际应用中需根据目标网站的html结构修改。如果目标网站使用了复杂的html结构或动态加载技术,可能需要更复杂的解析方法,例如使用dom解析器。 此外,为避免对目标网站造成过大压力,建议添加一定的延时机制。
以上就是如何用php和curl高效采集新闻列表和详情?的详细内容,更多请关注代码网其它相关文章!
您想发表意见!!点此发布评论
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论