Title

PHP爬虫之Querylist

  • 作者:Mr_Yan
  • php
  • 时间:2018-05-27 08:23:22
  • 873人已阅读
php

使用PHP拓展querylist 插件实现网络爬虫


以下使用的是3.2.1的版本,至于为什么不使用最新版本,理由就。。。。。

好了,废话不多说


一、使用composer 安装

composer require jaeger/querylist:V3.2.1


二、根目录下新建index.php


<?php

//入口文件
require 'vendor/autoload.php';
//核心插件
use QL\QueryList;

use Medoo\Medoo;

/*//连接数据库
$database = new Medoo([
   'database_type' => 'mysql',
   'database_name' => 'crawler',
   'server' => 'localhost',
   'username' => 'root',
   'password' => 'root',
   'charset' => 'utf8'
]);*/

function index(){
   echo "开始爬取数据\n";

   //抓取规则
   $rule_list=[
       "title"=>[".archive-title","text"], //抓取class 为 archive-title 标签中的文本
       "datail_url"=>[".archive-title","href"],//抓取class 为 archive-title 标签中的链接地址
       "content"=>[".excerpt","text"], //抓取class 为 excerpt 标签中的文本
       "thumb"=>[".post-thumb>img","src"],//抓取class 为 post-thumb>img 图片地址
   ];

   for ($i=1;$i<2;$i++)
   {
       echo "正在爬取第{$i}\n";
       $url="http://blog.jobbole.com/category/career/page/{$i}/";
       $data= carwler_data($url,$rule_list);
       echo "<pre>";
       var_dump($data);
   }
}

function carwler_data($url,$rule_list){
   $data=QueryList::Query($url,$rule_list)->data;

   return $data;


}

index();

结果输出

image.png


三、规则介绍

image.png



如果需要更强大的功能可以参照官网 以上只是一个小demo 官网地址https://querylist.cc/







本文为MrYan原创文章,转载无需和我联系,但请注明来自MrYan个人博客:www.mryan888.com

文章评论

Top