站长资讯网
最全最丰富的资讯网站

PHP抓取网页的方法有哪些

PHP抓取网页的方法有:1、file()函数;2、file_get_contents()函数;3、fopen()->fread()->fclose模式;4、curl方式;5、fsockopen()函数。

PHP抓取网页的方法有哪些

本文操作环境:windows10系统、php 7.1、thinkpad t480电脑。

我们在进行开发工作的时候通常会需要抓取一些网页文件,通常情况下我们都是使用PHP模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据。但是我们在拿到数据后并不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式将数据显现出来。

下面我们简单说一下php抓取页面的几种方法及原理:

一、 PHP抓取页面的主要方法:

1. file()函数

2. file_get_contents()函数

3. fopen()->fread()->fclose()模式

4.curl方式

5. fsockopen()函数 socket模式

二、PHP解析html或xml代码主要方式:

1、file()函数

<?php //定义url $url='http://t.qq.com'; //fiel函数读取内容数组 $lines_array=file($url); //拆分数组为字符串 $lines_string=implode('',$lines_array); //输出内容,嘿嘿,大家也可以保存在自己的服务器上 echo $lines_string;

2、file_get_contents()函数

使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置 allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

<?php //定义url $url='http://t.qq.com';  //file_get_contents函数远程读取数据 $lines_string=file_get_contents($url);  //输出内容,嘿嘿,大家也可以保存在自己的服务器上 echo htmlspecialchars($lines_string);

3、fopen()->fread()->fclose()模式

<?php //定义url $url='http://t.qq.com';  //fopen以二进制方式打开 $handle=fopen($url,"rb"); //变量初始化 $lines_string=""; //循环读取数据 do{     $data=fread($handle,1024);     if(strlen($data)==0) {         break;     } $lines_string.=$data; }while(true); //关闭fopen句柄,释放资源 fclose($handle);  //输出内容,嘿嘿,大家也可以保存在自己的服务器上 echo $lines_string;

4、curl方式

使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而且需 要拷贝ssleay32.dll和libeay32.dll到C:WINDOWSsystem32下;Linux下要安装curl扩展。

<?php // 创建一个新cURL资源 $url='http://t.qq.com'; $ch=curl_init(); $timeout=5; // 设置URL和相应的选项 curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); // 抓取URL $lines_string=curl_exec($ch); // 关闭cURL资源,并且释放系统资源 curl_close($ch); //输出内容,嘿嘿,大家也可以保存在自己的服务器上 echo $lines_string;

5、fsockopen()函数 socket模式

socket模式能否正确执行,也跟服务器的设置有关系,具体可以通过phpinfo查看服务器开启了哪些通信协议。

<?php $fp = fsockopen("t.qq.com", 80, $errno, $errstr, 30); if (!$fp) {     echo "$errstr ($errno)<br />n"; } else {     $out = "GET / HTTP/1.1rn";     $out .= "Host: t.qq.comrn";     $out .= "Connection: Closernrn";     fwrite($fp, $out);     while (!feof($fp)) {         echo fgets($fp, 128);     }     fclose($fp); }

PHP中文网17期线上班正式开班了(php培训)!热爱PHP编程的小伙伴们赶紧报名参加吧!

赞(0)
分享到: 更多 (0)
网站地图   沪ICP备18035694号-2    沪公网安备31011702889846号