wkf928592 2011-10-19 09:16:03 3675次浏览 2条回复 0 0 0

昨天经过培训,学到了如何运用Firefox准确定位一个文档的节点(也即Xpath),在这里拿出来和大家分享下,希望新手们也学习一下,老鸟都跳走哈~~ Xpath在做爬虫程序(也即采集程序)相当有用。传统的采集都是打开源文件,然后分析要找内容的唯一节点(还未必找得到),然后写正则匹配。试想一下,打开一个页面的源文件后,首先冲击你眼球的是什么?是一大推让人头疼的代码,要在这里找到你所要内容的唯一节点谈何容易....现在,我们运用Firefox工具就很容易获得你想要内容的Xpath了,具体做法如下:打开Firefox->按F12打开FireBug->打开你想采集的页面->选中你要采集的内容->右键单击->看到有复制Xpath。这样我们就找到了外面想采集内容的Xpath了,但是我想说这样的绝对路径的Path是相当傻逼的,页面随便增加一个div它就崩了,这就要求你写一个相对的Xpath,这就不同页面不同对待了,我不多说哈~~ 完成这些以后我们运用Xpath语法获取内容(Xpath语法克参照w3cschool网站)就ok啦! 写的我自己都看不懂...大家凑合着琢磨下哈~~

您需要登录后才可以回复。登录 | 立即注册