火车头抓包工具:fiddler使用实例视频(笔记)
 

fiddler使用实例之----------获取cookie!!!!



 

有的网站要登录才能采集,就是要采集器获取到登录后网站cookie 才能采集 ,或者是写发布模块要用到抓包获取post的数据,虽然采集器有内置浏览器获取这些信息,

但是有的时候获取的不够准确,就可以使用fiddler抓包工具来获取。

fiddler工具下载地址:http://www.telerik.com/download/fiddler

1,下载并安装好,启动fiddler工具,设置就按照下图说明来设置,界面如下:


image


2,我们看到很多信息,要找到我们需要的网站很难 ,我们可以清空已经抓到的信息,电脑键盘“CTER+X”是清空的快捷键,清空后的结果:


clip_image004


3,现在只要刷新我们要获取cookie的网站就可以 ,我这里就用我们官方的论坛来测试http://bbs.locoy.com/ ,从新刷新页面就可以了,

刷新后我们看下fiddler工具得到什么,如下图:这里一定要选择“raw”这个选项,这个图忘记注明了。


image


4,就可以获取到cookie,然后点击“View in Notepad”,把结果保存到记事本里面如下图:


clip_image008

5,并把cookie 和user-engent等信息复制到采集器里面

V9版本 其他设置-http请求设置

 

V8版本  在规则的第一步,网页登录信息那里填写。

clip_image010



fiddler 获取到多页的地址,方法讲解

 

各位有没有遇到页面里能看到内容 ,但是写采集规则的时候为啥在页面源代码里面,找不到呢 咋回事呀 这是。
比如这个页面:http://www.nxrc.com.cn/company/company.php?comid=91241
你看看页面右下侧的联系方式能不能看到,是吧在页面是能看到的 ,咋到了页面源代码找不到了呢,好奇怪吧。
那么遇到这样的情况该怎么办???
这个种情况就说明呀这个联系方式的内容是在另外一个页面地址上,并不是在这个页面地址http://www.nxrc.com.cn/company/company.php?comid=91241
这就是因为我们为啥在页面上看为什么不能在页面源代码上面看到的原因,因为这个部分内容其实在 另外的页面上面。那么我们
就要找到他到底在那个页面上了。
这里说下什么是多页????
X$P[%4JJUYXMTQN7YK2G]]5.jpg
图上面的红框标识的典型页面也叫默认页面是我们要采集的页面地址是吧,但是有些数据不在这个这个页面上面,虽然不在这个页
面上,但是所在的地址和这个默认页面地址有关系,有的是地址在默认页面上,有的是地址和默认页面地址有一定的关心比如多
了几个单词之类的。我们通过地址之间的关系找到这个地址,那么这个地址相对于默认页就叫做多页
那么多页的定义大家是否能明白呢。上面那个情况就是要使用多页,那么下面我们用fiddler 找下这个联系方式所在的页面地址是
什么,然后我们比较下和这个默认页http://www.nxrc.com.cn/company/company.php?comid=91241
之间有什么关系。
首先打开fiddler,用fiddler抓包这里默认你已经会了如果不会请看下这个教程吧:


---------------------------------------------------------------------------------------------------------------------------------------------------------------------------

fiddler 获取cookie的简单说明~~在上面








然后我们刷新下http://www.nxrc.com.cn/company/company.php?comid=91241
这个页面,抓包。
然后看下那个联系内容有个电话号码是:0951-3918004,我们要找找这个数字在那里我们随便选些数字去fiddler抓包的结果里找下这里我们用“8004”去查找,这里说明下,很重要的一点:我们这里选取查找的字符一般是数字英文字母最佳,汉字当然也可以,但是有的时候呀,汉字可能被转义了我们是查找不到的,这里是经验之谈。
重点如何查找,现在说明下。看下图上面的标识
]D_]%M_PEKWA6WSK64ZIH[A.jpg
点击查找如图:
7DI1V33C{_D_{10YK~D2DKU.jpg
然后我们查找下看下结果是什么。
上图 4Y@O6(VVO(V2I39R`1BGPZI.jpg
上面说了 结果会用黄色标识的,看我们查找到了,好多内容 换2楼继续写

对1楼返回的结果说明下如下图:
EMY~U@74E7TES2}HFD}N`05.jpg
也就是说我们找到了联系方式的地址是在这个页面http://www.nxrc.com.cn/inc/conta ... amp;t=1364285298093 大家可以把这个地方放到浏览器里访问看看
你要是留心会发现那个t=1364285298093 你抓到的这个数字和我不一样的不过没有关心你不要这个也是可以访问的
就是访问这个地址http://www.nxrc.com.cn/inc/contacts.php?companyid=91241 结果也是一样的 是吧 也就是说那个t我们可以不要
现在找到了地址 怎么用在采集器里面呢,哦,我们比较下这个2个地址之间的关系
http://www.nxrc.com.cn/company/company.php?comid=91241
http://www.nxrc.com.cn/inc/contacts.php?companyid=91241
发现了吧 有个共同点就是有个共同的数字是吧,这里你记住了,我们现在写如何根据这个地址http://www.nxrc.com.cn/company/company.php?comid=91241
获取这个地址http://www.nxrc.com.cn/inc/contacts.php?companyid=91241

 

第一步打开多页管理
ZOZ%4H$}Z~F3O]O]D5PW2IW.jpg

地址的之间的规律
就是把http://www.nxrc.com.cn/company/company.php?comid=91241 这个地址的91241 得到 然后组合成http://www.nxrc.com.cn/inc/contacts.php?companyid=91241 这样的地址样式
第一步获取到这个91241 数字,这个是以这个网址为例的,不同公司地址这个数字是不一样的大家不要傻掉了哈
采集器如何获取这个数字上图说明:
@)`BSKRY%_WRU~DR[L)K.jpg
这里写好后我们要测试下是否得到正确的联系页面地址,如果测试上图如下:
}K9KRE)RK`G3L)H`S)8MU3M.jpg
保存后我们就在建立标签那里用上这个地址,

获取到的多页如果在规则里面使用
现在我们就按照获取到多页的地址的源代码来写采集规则了如下图
注意要选择多页,设置好了我们就保存下看下结果是怎么样 惯例上图 下面看
KA4Z`N_N4_$FBKHC3C6XKCB.jpg
好了你看到了结果对了是吧
你懂了吗?
你或许注意了我们建立多页的时候 有个选项的如下图
6$DIG@72{_}7E51G`CCS3E1.jpg
我们选择的是第一种,第二种方式参考这个教程:5, 淘宝 天猫多页获取宝贝详细 教程:http://bbs.locoy.com/spider-131526-1-1.html

 

我们是查找的方式获取到联系页面的地址是吧,
然而悲催的你用这种方式根本查找不到,可能是选择的查找字符不好,也有可能是人品有问题,方正吧 就是没有查找哦,真是悲催!
那么这种请问该怎么办?
下面上图说明
没有办法就只能把抓到的地址一个一个查看方式如下苦逼呀
_MO2(NV8U6R7A4Z6Q{IT9ID.jpg




fiddler使用实例之----------查找隐藏的真实地址!!!!



 

这个教程讲解下如何用fddler ,找到页面的真是地址同样也是可以找到页面隐藏的内容,

两者原理是一样的,在页面能看到的信息,页面源代码却看不到,也就是这样的信息其实并不在这个页面上,

而是通过一些方法调用来显示在这个页面的,要采集都是要找到真实地址。所以首先需要知道fiddler的使用(http://faq.locoy.com/q-753.html),

和简单的采集(一个简单的文章采集实例)。

正如大家所知,采集器是根据页面源代码采集的,但是有的时候,在浏览器明明可以看到的,却在页面源代码找不到信息呢,如这个新浪的滚动新闻:

http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1

假如你要采集这个怎么办,打开看下页面源代码里面找不到新闻内容的地址,这样的情况的话,

大部分情况我们看到的都不是我们要采集的真是地址,我们要用fiddler去找下,这些新闻地址的页面到底在那个页面。


第一步我们把fiidler软件打开,下图我会把fiddler重要的一个地方用红色标志出来,你们就按照图上的设置下fiddler。


没有抓到任何数据的fiddler工具界面如下图:


image 

第二步,抓包,就是刷新下我们要抓包的页面地址

第三步,停止抓包为了防止抓到很多无用的东西我们可以让fiddler 暂停抓包按钮在左下方如下图:
clip_image003

点击下上图的位置就可以了,就是在fiddler左下角,点击下那个单词并消失,就停止抓包了,再点击此处空白处就会又出现,就会从新抓包。

第四步,查找页面真是地址


现在是我们知道内容地址来查找他在那个页面,我们在列表页那里顺便访问一个内容地址找到他的地址是什么如下图:
clip_image004


这个地址是http://tech.sina.com.cn/t/2013-04-01/16548201408.shtml 这个是吧,然后我们选择地址种的一部分到fiddler里面去查找,

"ctrl+f"弹出查找的界面,一般选择数字或者英文,所以我们选择一些特殊的字符去查找,我们就选择后面的数字 “16548201408”

image 

上图黄色是我们我们找到包含“16548201408”字符的地址了,这里就可以想到这个地址就是我们要找到的真实地址了,下面就需要验证下

在fiddler里查看页面信息,看下是否是我们在页面看到的文章,如下图:

image


那么fiddler抓到的这个地址,就是滚动新闻列表页地址:http://roll.news.sina.com.cn/interface/rollnews_ch_out_interface.php?col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1&r=0.46109949907658204




fiddler采集HTTPS类型网站的设置


 


标签: