第 1 頁 (共 2 頁)
[問題]請教有關處理spider的問題
發表於 : 2007-01-15 22:12
由 linjunan
各位老大,小弟check到一主機,httpd上的log滿滿是『xxx.asd.tj.cn』的request。
實際上卻找不到www73.asd.tj.cn這類網址的ip,不曉得該如從iptables去阻擋。
想請問網友們是如何處理?
謝謝。
發表於 : 2007-01-16 00:23
由 chiouss
直接擋 *.tj.cn,我不確定 whois 查到的資料正確性有多少...
代碼: 選擇全部
$ whois www.tj.cn
Domain Name: www.tj.cn
ROID: 20030629s10041s00120134-cn
Domain Status: clientDeleteProhibited
Domain Status: clientTransferProhibited
Registrant Organization: 天津罗网网络有限公司
Registrant Name: 钟罗
Administrative Email: zhongluo@vip.163.com
Sponsoring Registrar: 厦门华商盛世网络有限公司
Name Server:dns.bizcn.com
Name Server:dns.cnmsn.net
Registration Date: 2003-06-29 05:13
Expiration Date: 2008-06-29 05:13
發表於 : 2007-01-16 09:17
由 linjunan
感謝~~~
原本想到的方式是直接在iptables drop掉*.asd.tj.cn,但iptables回報ip有問題;直接去nslookup www73.asd.tj.cn,是沒有資料的。
由www.tj.cn來看,是有60.28.xxx.xxx的ip。看來,把它整個都擋掉會比較省事。
發表於 : 2007-01-16 13:24
由 chiouss
linjunan 寫:原本想到的方式是直接在iptables drop掉*.asd.tj.cn,但iptables回報ip有問題;直接去nslookup www73.asd.tj.cn,是沒有資料的。
因為他們 DNS 故意只有設反解 (IP -> DN) 沒有設正解 (DN -> IP)
Re: [問題]請教有關處理spider的問題
發表於 : 2007-01-16 13:49
由 進藤光
linjunan 寫:各位老大,小弟check到一主機,httpd上的log滿滿是『xxx.asd.tj.cn』的request。
請貼幾筆出來研究一下?

Re: [問題]請教有關處理spider的問題
發表於 : 2007-01-16 16:58
由 chiouss
進藤光 寫:linjunan 寫:各位老大,小弟check到一主機,httpd上的log滿滿是『xxx.asd.tj.cn』的request。
請貼幾筆出來研究一下?

有什麼好研究的?關門放狗不就好了!?

發表於 : 2007-01-16 20:43
由 進藤光
萬一無辜的網友也被關在門外,那不就終身無法開啟網站?
不過倒是可以透過 Goolge 爬庫存網頁~~ XD

發表於 : 2007-01-16 22:12
由 chiouss
進藤光 寫:萬一無辜的網友也被關在門外,那不就終身無法開啟網站?
放心,你把 60.28.1-254.1-254 掃一遍就知道可以安心的關門放狗了
--
等有人哀號再處理嘛!擔心這麼多幹麻咧?

發表於 : 2007-01-17 00:47
由 進藤光
哈哈~~已經有人被我鎖在門外,註冊不了~~連【好】都不會輸入或無法輸入的,就不用註冊了~~ XD
不是說 IP 可以篡改嗎?再說透過 proxy 也可以走旁門左道,鎖 IP 可能不太保險~~

發表於 : 2007-01-17 03:04
由 chiouss
進藤光 寫:不是說 IP 可以篡改嗎?再說透過 proxy 也可以走旁門左道,鎖 IP 可能不太保險~~

為了爬網站 (正常的 spider) 或是貼廣告你會去搞 fake ip?用 proxy 的可能比較多吧?但是...既然要擋當然是先擋 Open Proxy 還有那些專門被 bot 拿來當跳板的 proxy 啊!
我擋 IP 向來不手軟的 XD
發表於 : 2007-01-23 14:49
由 linjunan
60.28.164.73 - - [22/Jan/2007:13:46:55 +0800] "GET /viewtopic.php?t=1578 HTTP/1.0" 200 23852 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSI
E 6.0)"
不好意思,小弟這幾天不在台北,無法回應。感謝網友們的協助。
這個
xxx.asd.tj.cn實在是太可惡了。光2007年1月就吃掉我
719mb(google與yahoo一個月才約200多mb...),沒錯,就是
719mb,繼百x、搜x之後,最勇猛的spider。
就上回chiouss網友的協助,小弟把60.28.1.0/24從ip tables擋住,本以為就沒事了。早上一看log記錄,變成從60.28.164.x~60.28.3.x進來,而且是變本加厲,狂抓網站資料。
小弟查了幾筆,這家真的很機車,都是設反解、沒設正解,所以在iptables以dns名稱設定來阻擋時,會失效。
剛才直接把60.28.0.0/16全擋住。
給網友參考,不少china那的spider都很狠,小弟擋掉的網域包含:
60.28.0.0/16
61.135.146.203
202.108.1.0/24
202.108.22.0/24
220.181.0.0/16
對於這些可惡、惱人的spider,網友們還有其它的『手段』嗎? 百x與搜x根本沒有遵照robert協定,最扯的是它們自己的網站上還有針對它們spider的相關說明,依它們的設定,依然是狂抓。
謝謝。
發表於 : 2007-01-23 16:17
由 進藤光
發表於 : 2007-01-23 16:26
由 linjunan
^ ^
小弟哪一組沒擋到? Tell me please!
現在也要採取見一個擋一整組!!!

發表於 : 2007-01-23 16:51
由 chiouss
把 iaskspider 丟去 Google 裡面你會發現是新浪的土匪 spider,所以也該知道人是誰殺的吧?
我是都在 .htaccess 裡面把一卡車 spider 的 user-agent 幹掉啦 :Q
發表於 : 2007-01-23 23:22
由 jwxinst
直接把整段網段都封了就夠狠了XD
user-agent @@也是一個蠻好用的方法=-=
不過我就喜歡google來湊熱鬧XD