一起学习网 一起学习网


利用php抓取蜘蛛爬虫痕迹的示例代码

网络编程 利用php抓取蜘蛛爬虫痕迹的示例代码 06-22

前言

相信许多的站长、博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好又比较直观方便操作的!下面是示例代码,有需要的朋友们下面来一起看看吧。

示例代码

<?php
//获取蜘蛛爬虫名或防采集
function isSpider(){
  $bots = array(
          'Google'  => 'googlebot',
          'Baidu'    => 'baiduspider',
          'Yahoo'    => 'yahoo slurp',
          'Soso'    => 'sosospider',
          'Msn'    => 'msnbot',
          'Altavista'  => 'scooter ',
          'Sogou'    => 'sogou spider',
          'Yodao'    => 'yodaobot'
      );
  $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']);
  foreach ($bots as $k => $v){
    if (strstr($v,$userAgent)){
      return $k;
      break;
    }
  }
  return false;
} 
//获取哪种蜘蛛爬虫后保存蜘蛛痕迹。
//根据采集时HTTP_USER_AGENT是否为空来防止采集
//抓蜘蛛爬虫
$spi  = isSpider();
if($spi){
  $tlc_thispage  = addslashes($_SERVER['HTTP_USER_AGENT']);
  $file      = 'robot.txt';
  $time      = date('Y-m-d H:i:s',mktime());
  $handle      = fopen($file,'a+');
  $PR        = $_SERVER['REQUEST_URI'];
  fwrite($handle, "Time:{$time} ROBOT:{$spi} AGENT:{$tlc_thispage} URL:{$PR} nr");
  fclose($handle);
}
?>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有问题大家可以留言交流。

PHP页面输出搜索后跳转下一页的处理方法
php页面输出时,搜索功能在跳转下一页时,如果不做任何处理,会返回原有是第二页输出的数据,用js来给url加上搜索的条件,保证跳转下一页时输出的

PHP页面输出时js设置input框的选中值
关于php页面输出时js设置input框的选中值的代码如下所示:/*设置表单的值*/functionsetValue(name,value){varfirst=name.substr(0,1),input,i=0,val;if(value==="")return;if("#"===fir

thinkphp在php7环境下提示Cannot use ‘String’ as class name as it is reserved的解决方法
本文实例讲述了thinkphp在php7环境下提示Cannotuse‘String'asclassnameasitisreserved的解决方法。分享给大家供大家参考,具体如下:我有一网站之前用php7运行think


编辑:一起学习网

标签:爬虫,蜘蛛,下一页,页面,跳转