1 頁 (共 2 頁)

[問題]請教有關處理spider的問題

發表於 : 2007-01-15 22:12
linjunan
各位老大,小弟check到一主機,httpd上的log滿滿是『xxx.asd.tj.cn』的request。

實際上卻找不到www73.asd.tj.cn這類網址的ip,不曉得該如從iptables去阻擋。

想請問網友們是如何處理?

謝謝。

發表於 : 2007-01-16 00:23
chiouss
直接擋 *.tj.cn,我不確定 whois 查到的資料正確性有多少...

代碼: 選擇全部

$ whois www.tj.cn
Domain Name: www.tj.cn
ROID: 20030629s10041s00120134-cn
Domain Status: clientDeleteProhibited
Domain Status: clientTransferProhibited
Registrant Organization: 天津罗网网络有限公司
Registrant Name: 钟罗
Administrative Email: zhongluo@vip.163.com
Sponsoring Registrar: 厦门华商盛世网络有限公司
Name Server:dns.bizcn.com
Name Server:dns.cnmsn.net
Registration Date: 2003-06-29 05:13
Expiration Date: 2008-06-29 05:13

發表於 : 2007-01-16 09:17
linjunan
感謝~~~

原本想到的方式是直接在iptables drop掉*.asd.tj.cn,但iptables回報ip有問題;直接去nslookup www73.asd.tj.cn,是沒有資料的。

由www.tj.cn來看,是有60.28.xxx.xxx的ip。看來,把它整個都擋掉會比較省事。

發表於 : 2007-01-16 13:24
chiouss
linjunan 寫:原本想到的方式是直接在iptables drop掉*.asd.tj.cn,但iptables回報ip有問題;直接去nslookup www73.asd.tj.cn,是沒有資料的。
因為他們 DNS 故意只有設反解 (IP -> DN) 沒有設正解 (DN -> IP)

Re: [問題]請教有關處理spider的問題

發表於 : 2007-01-16 13:49
進藤光
linjunan 寫:各位老大,小弟check到一主機,httpd上的log滿滿是『xxx.asd.tj.cn』的request。
請貼幾筆出來研究一下? :roll:

Re: [問題]請教有關處理spider的問題

發表於 : 2007-01-16 16:58
chiouss
進藤光 寫:
linjunan 寫:各位老大,小弟check到一主機,httpd上的log滿滿是『xxx.asd.tj.cn』的request。
請貼幾筆出來研究一下? :roll:
有什麼好研究的?關門放狗不就好了!? :mrgreen:

發表於 : 2007-01-16 20:43
進藤光
萬一無辜的網友也被關在門外,那不就終身無法開啟網站? :mrgreen:
不過倒是可以透過 Goolge 爬庫存網頁~~ XD :mrgreen:

發表於 : 2007-01-16 22:12
chiouss
進藤光 寫:萬一無辜的網友也被關在門外,那不就終身無法開啟網站? :mrgreen:
放心,你把 60.28.1-254.1-254 掃一遍就知道可以安心的關門放狗了 :mrgreen:

--
等有人哀號再處理嘛!擔心這麼多幹麻咧? :D

發表於 : 2007-01-17 00:47
進藤光
哈哈~~已經有人被我鎖在門外,註冊不了~~連【好】都不會輸入或無法輸入的,就不用註冊了~~ XD :mrgreen:
不是說 IP 可以篡改嗎?再說透過 proxy 也可以走旁門左道,鎖 IP 可能不太保險~~ :mrgreen:

發表於 : 2007-01-17 03:04
chiouss
進藤光 寫:不是說 IP 可以篡改嗎?再說透過 proxy 也可以走旁門左道,鎖 IP 可能不太保險~~ :mrgreen:
為了爬網站 (正常的 spider) 或是貼廣告你會去搞 fake ip?用 proxy 的可能比較多吧?但是...既然要擋當然是先擋 Open Proxy 還有那些專門被 bot 拿來當跳板的 proxy 啊! :mrgreen:

我擋 IP 向來不手軟的 XD

發表於 : 2007-01-23 14:49
linjunan
60.28.164.73 - - [22/Jan/2007:13:46:55 +0800] "GET /viewtopic.php?t=1578 HTTP/1.0" 200 23852 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSI
E 6.0)"
不好意思,小弟這幾天不在台北,無法回應。感謝網友們的協助。

這個xxx.asd.tj.cn實在是太可惡了。光2007年1月就吃掉我719mb(google與yahoo一個月才約200多mb...),沒錯,就是719mb,繼百x、搜x之後,最勇猛的spider。

就上回chiouss網友的協助,小弟把60.28.1.0/24從ip tables擋住,本以為就沒事了。早上一看log記錄,變成從60.28.164.x~60.28.3.x進來,而且是變本加厲,狂抓網站資料。

小弟查了幾筆,這家真的很機車,都是設反解、沒設正解,所以在iptables以dns名稱設定來阻擋時,會失效。

剛才直接把60.28.0.0/16全擋住。

給網友參考,不少china那的spider都很狠,小弟擋掉的網域包含:
60.28.0.0/16
61.135.146.203
202.108.1.0/24
202.108.22.0/24
220.181.0.0/16

對於這些可惡、惱人的spider,網友們還有其它的『手段』嗎? 百x與搜x根本沒有遵照robert協定,最扯的是它們自己的網站上還有針對它們spider的相關說明,依它們的設定,依然是狂抓。 :x

謝謝。

發表於 : 2007-01-23 16:17
進藤光
百度幹嘛要給他找?我又沒去註冊,還不是跑來亂爬一通~~直接在防火牆幹掉!現在好得很~~大陸的 IP 來一個幹一組,來兩個幹掉一堆~~ :mrgreen: :mrgreen: :mrgreen:

發表於 : 2007-01-23 16:26
linjunan
^ ^

小弟哪一組沒擋到? Tell me please!

現在也要採取見一個擋一整組!!! :lol:

發表於 : 2007-01-23 16:51
chiouss
把 iaskspider 丟去 Google 裡面你會發現是新浪的土匪 spider,所以也該知道人是誰殺的吧?

我是都在 .htaccess 裡面把一卡車 spider 的 user-agent 幹掉啦 :Q

發表於 : 2007-01-23 23:22
jwxinst
直接把整段網段都封了就夠狠了XD
user-agent @@也是一個蠻好用的方法=-=
不過我就喜歡google來湊熱鬧XD