HAWA11的Blog: 第一次爬網頁就上手

2013/06/04

第一次爬網頁就上手

由於最近鬼迷心竅想買台TU來騎
但是約了兩個賣家要看車最後都不了了之
決定來長期抗戰

目前主要看的拍賣來源為露天拍賣與二輪組討論區
每天三不五十點來看實在是一件很惱人的事情
所以就決定寫個程式定時抓取這兩個網頁的資料

寫網路蜘蛛要用的語言第一就想到Python
查了一下發現有scrapy這個framework
功能相當強大 , 不過似乎有點大材小用
再查了一下找到pyquery這個套件可以用類似jquery的語法來select component.

首先由於該套件是以lxml作為底層剖析引擎，所以先到下列網址下載安裝
http://pypi.python.org/pypi/lxml/2.3.2

接著用下列指令來安裝
sudo apt-get install python-setuptools
sudo easy_install --allow-hosts=lxml.de,*.python.org lxml

安裝完用git 抓下pyquery的source code

git clone https://github.com/gawel/pyquery.git

接著下列指令就可以安裝好pyquery

sudo python setup.py install

接著用以下的code就可以列出所有title

from pyquery import PyQuery as pq
q = pq(url='http://www.run2w.com/forum/viewforum.php?f=65')
titles = q('span.topictitle')

for title in titles:
print pq(title).text()

之後要再把這些資料存到db , 每次爬完去比對有沒有變化
有變化就寄信給我 XD

沒有留言:

張貼留言