2013/06/04
第一次爬網頁就上手
由於最近鬼迷心竅想買台TU來騎
但是約了兩個賣家要看車最後都不了了之
決定來長期抗戰
目前主要看的拍賣來源為露天拍賣與二輪組討論區
每天三不五十點來看實在是一件很惱人的事情
所以就決定寫個程式定時抓取這兩個網頁的資料
寫網路蜘蛛要用的語言第一就想到Python
查了一下發現有scrapy這個framework
功能相當強大 , 不過似乎有點大材小用
再查了一下找到pyquery這個套件可以用類似jquery的語法來select component.
首先由於該套件是以lxml作為底層剖析引擎,所以先到下列網址下載安裝
http://pypi.python.org/pypi/lxml/2.3.2
接著用下列指令來安裝
sudo apt-get install python-setuptools
sudo easy_install --allow-hosts=lxml.de,*.python.org lxml
安裝完用git 抓下pyquery的source code
git clone https://github.com/gawel/pyquery.git
接著下列指令就可以安裝好pyquery
sudo python setup.py install
接著用以下的code就可以列出所有title
from pyquery import PyQuery as pq
q = pq(url='http://www.run2w.com/forum/viewforum.php?f=65')
titles = q('span.topictitle')
for title in titles:
print pq(title).text()
之後要再把這些資料存到db , 每次爬完去比對有沒有變化
有變化就寄信給我 XD
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言