[問題]請教有關處理spider的問題

Webmasters Discussion
站長們到此分享架站甘苦、管理心得等;歡迎大家多多提出意見喔!
(請勿發表任何跟站長經驗分享不相干的文章,違者砍文)

版主: 版主管理群

linjunan
星球普通子民
星球普通子民
文章: 18
註冊時間: 2005-04-17 23:06

[問題]請教有關處理spider的問題

文章 linjunan »

各位老大,小弟check到一主機,httpd上的log滿滿是『xxx.asd.tj.cn』的request。

實際上卻找不到www73.asd.tj.cn這類網址的ip,不曉得該如從iptables去阻擋。

想請問網友們是如何處理?

謝謝。
chiouss
竹貓忠實會員
竹貓忠實會員
文章: 1741
註冊時間: 2002-11-29 18:19

文章 chiouss »

直接擋 *.tj.cn,我不確定 whois 查到的資料正確性有多少...

代碼: 選擇全部

$ whois www.tj.cn
Domain Name: www.tj.cn
ROID: 20030629s10041s00120134-cn
Domain Status: clientDeleteProhibited
Domain Status: clientTransferProhibited
Registrant Organization: 天津罗网网络有限公司
Registrant Name: 钟罗
Administrative Email: zhongluo@vip.163.com
Sponsoring Registrar: 厦门华商盛世网络有限公司
Name Server:dns.bizcn.com
Name Server:dns.cnmsn.net
Registration Date: 2003-06-29 05:13
Expiration Date: 2008-06-29 05:13
linjunan
星球普通子民
星球普通子民
文章: 18
註冊時間: 2005-04-17 23:06

文章 linjunan »

感謝~~~

原本想到的方式是直接在iptables drop掉*.asd.tj.cn,但iptables回報ip有問題;直接去nslookup www73.asd.tj.cn,是沒有資料的。

由www.tj.cn來看,是有60.28.xxx.xxx的ip。看來,把它整個都擋掉會比較省事。
chiouss
竹貓忠實會員
竹貓忠實會員
文章: 1741
註冊時間: 2002-11-29 18:19

文章 chiouss »

linjunan 寫:原本想到的方式是直接在iptables drop掉*.asd.tj.cn,但iptables回報ip有問題;直接去nslookup www73.asd.tj.cn,是沒有資料的。
因為他們 DNS 故意只有設反解 (IP -> DN) 沒有設正解 (DN -> IP)
進藤光
星球公民
星球公民
文章: 291
註冊時間: 2005-03-16 18:48
來自: BNW 時尚資訊網
聯繫:

Re: [問題]請教有關處理spider的問題

文章 進藤光 »

linjunan 寫:各位老大,小弟check到一主機,httpd上的log滿滿是『xxx.asd.tj.cn』的request。
請貼幾筆出來研究一下? :roll:
※架設伺服器主機:Mac mini G4-1.5GHz, 1GB RAM 三台
※架設主機作業系統:Mac OS X Server 10.4.2 Tiger
※我的上網方式:固定制 ADSL 4M/1M、3 IP
※安裝的伺服器:Apache 1.3.33 + php 4.3.11 + MySQL 5.0.19-max
※我的 phpBB2 版本:phpBB 2.0.21 UTF-8 版
※我的會議室網址: http://bbs.bnw.com.tw/conference/
chiouss
竹貓忠實會員
竹貓忠實會員
文章: 1741
註冊時間: 2002-11-29 18:19

Re: [問題]請教有關處理spider的問題

文章 chiouss »

進藤光 寫:
linjunan 寫:各位老大,小弟check到一主機,httpd上的log滿滿是『xxx.asd.tj.cn』的request。
請貼幾筆出來研究一下? :roll:
有什麼好研究的?關門放狗不就好了!? :mrgreen:
進藤光
星球公民
星球公民
文章: 291
註冊時間: 2005-03-16 18:48
來自: BNW 時尚資訊網
聯繫:

文章 進藤光 »

萬一無辜的網友也被關在門外,那不就終身無法開啟網站? :mrgreen:
不過倒是可以透過 Goolge 爬庫存網頁~~ XD :mrgreen:
※架設伺服器主機:Mac mini G4-1.5GHz, 1GB RAM 三台
※架設主機作業系統:Mac OS X Server 10.4.2 Tiger
※我的上網方式:固定制 ADSL 4M/1M、3 IP
※安裝的伺服器:Apache 1.3.33 + php 4.3.11 + MySQL 5.0.19-max
※我的 phpBB2 版本:phpBB 2.0.21 UTF-8 版
※我的會議室網址: http://bbs.bnw.com.tw/conference/
chiouss
竹貓忠實會員
竹貓忠實會員
文章: 1741
註冊時間: 2002-11-29 18:19

文章 chiouss »

進藤光 寫:萬一無辜的網友也被關在門外,那不就終身無法開啟網站? :mrgreen:
放心,你把 60.28.1-254.1-254 掃一遍就知道可以安心的關門放狗了 :mrgreen:

--
等有人哀號再處理嘛!擔心這麼多幹麻咧? :D
進藤光
星球公民
星球公民
文章: 291
註冊時間: 2005-03-16 18:48
來自: BNW 時尚資訊網
聯繫:

文章 進藤光 »

哈哈~~已經有人被我鎖在門外,註冊不了~~連【好】都不會輸入或無法輸入的,就不用註冊了~~ XD :mrgreen:
不是說 IP 可以篡改嗎?再說透過 proxy 也可以走旁門左道,鎖 IP 可能不太保險~~ :mrgreen:
※架設伺服器主機:Mac mini G4-1.5GHz, 1GB RAM 三台
※架設主機作業系統:Mac OS X Server 10.4.2 Tiger
※我的上網方式:固定制 ADSL 4M/1M、3 IP
※安裝的伺服器:Apache 1.3.33 + php 4.3.11 + MySQL 5.0.19-max
※我的 phpBB2 版本:phpBB 2.0.21 UTF-8 版
※我的會議室網址: http://bbs.bnw.com.tw/conference/
chiouss
竹貓忠實會員
竹貓忠實會員
文章: 1741
註冊時間: 2002-11-29 18:19

文章 chiouss »

進藤光 寫:不是說 IP 可以篡改嗎?再說透過 proxy 也可以走旁門左道,鎖 IP 可能不太保險~~ :mrgreen:
為了爬網站 (正常的 spider) 或是貼廣告你會去搞 fake ip?用 proxy 的可能比較多吧?但是...既然要擋當然是先擋 Open Proxy 還有那些專門被 bot 拿來當跳板的 proxy 啊! :mrgreen:

我擋 IP 向來不手軟的 XD
linjunan
星球普通子民
星球普通子民
文章: 18
註冊時間: 2005-04-17 23:06

文章 linjunan »

60.28.164.73 - - [22/Jan/2007:13:46:55 +0800] "GET /viewtopic.php?t=1578 HTTP/1.0" 200 23852 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSI
E 6.0)"
不好意思,小弟這幾天不在台北,無法回應。感謝網友們的協助。

這個xxx.asd.tj.cn實在是太可惡了。光2007年1月就吃掉我719mb(google與yahoo一個月才約200多mb...),沒錯,就是719mb,繼百x、搜x之後,最勇猛的spider。

就上回chiouss網友的協助,小弟把60.28.1.0/24從ip tables擋住,本以為就沒事了。早上一看log記錄,變成從60.28.164.x~60.28.3.x進來,而且是變本加厲,狂抓網站資料。

小弟查了幾筆,這家真的很機車,都是設反解、沒設正解,所以在iptables以dns名稱設定來阻擋時,會失效。

剛才直接把60.28.0.0/16全擋住。

給網友參考,不少china那的spider都很狠,小弟擋掉的網域包含:
60.28.0.0/16
61.135.146.203
202.108.1.0/24
202.108.22.0/24
220.181.0.0/16

對於這些可惡、惱人的spider,網友們還有其它的『手段』嗎? 百x與搜x根本沒有遵照robert協定,最扯的是它們自己的網站上還有針對它們spider的相關說明,依它們的設定,依然是狂抓。 :x

謝謝。
進藤光
星球公民
星球公民
文章: 291
註冊時間: 2005-03-16 18:48
來自: BNW 時尚資訊網
聯繫:

文章 進藤光 »

百度幹嘛要給他找?我又沒去註冊,還不是跑來亂爬一通~~直接在防火牆幹掉!現在好得很~~大陸的 IP 來一個幹一組,來兩個幹掉一堆~~ :mrgreen: :mrgreen: :mrgreen:
※架設伺服器主機:Mac mini G4-1.5GHz, 1GB RAM 三台
※架設主機作業系統:Mac OS X Server 10.4.2 Tiger
※我的上網方式:固定制 ADSL 4M/1M、3 IP
※安裝的伺服器:Apache 1.3.33 + php 4.3.11 + MySQL 5.0.19-max
※我的 phpBB2 版本:phpBB 2.0.21 UTF-8 版
※我的會議室網址: http://bbs.bnw.com.tw/conference/
linjunan
星球普通子民
星球普通子民
文章: 18
註冊時間: 2005-04-17 23:06

文章 linjunan »

^ ^

小弟哪一組沒擋到? Tell me please!

現在也要採取見一個擋一整組!!! :lol:
chiouss
竹貓忠實會員
竹貓忠實會員
文章: 1741
註冊時間: 2002-11-29 18:19

文章 chiouss »

把 iaskspider 丟去 Google 裡面你會發現是新浪的土匪 spider,所以也該知道人是誰殺的吧?

我是都在 .htaccess 裡面把一卡車 spider 的 user-agent 幹掉啦 :Q
jwxinst
竹貓忠實會員
竹貓忠實會員
文章: 945
註冊時間: 2006-03-31 10:07
來自: New York, USA     學業狀況: 當天才...       個人狀況: 臭蛋
聯繫:

文章 jwxinst »

直接把整段網段都封了就夠狠了XD
user-agent @@也是一個蠻好用的方法=-=
不過我就喜歡google來湊熱鬧XD
目前狀態圖檔
GoKo Music進度: 10%

問個問題不要緊可是沒有發文格式、問題不夠詳細情況,難道要用猜嗎?
新手必讀
[教學] 基本認識、學習、隨我架設phpBB的新手通 -更新至2.0.22
問問題的技巧
http://www.phpbb-tw.net/phpbb/viewtopic.php?t=44340
MOD安裝教學及轉碼
http://www.phpbb-tw.net/phpbb/viewtopic.php?t=22832
主題已鎖定

回到「站長交流」