Selasa, 19 Mei 2009

Latest update proyek webcrawl judotenslab

Berhubung post sebelumnya yang berjudul Membangun Web Crawler / Web Spider sendiri, cikal bakal search engine lokal Indonesia? sudah terlalu panjang. Untuk kedepannya saya akan masukkan timeline history dari proyek ini di sini saja. Dan memang post ini hanya ditujukan untuk mereka yang tertarik untuk mengikuti perkembangan proyek bersama kita ini.

Sebelumnya untuk memudahkan penelusuran timeline history, saya coba beri kode dahulu untuk setiap script berdasarkan eksekusinya.

BlogCrawler : bot pertama, yang bertugas menjelajah jejaring blog lewat shoutbox
ShoutPoster : bot kedua, yang bertugas memposting ke daftar jejaring shoutbox, hasil dari penjelajah bot pertama

F.A.Q :
Q : Apa hanya shoutbox yang dicari oleh BlogCrawler?
A : Sampai saat ini iya.

Q : Mengapa?
A : Karena shoutbox masih belum menggunakan image verification untuk mencegah bot/spam.

Q : Lalu apakah kegiatan ini bisa dianggap SPAM?
A : Bisa. Tergantung tujuan mau dibawa kemanakah proyek kita ini.

Q : Lalu apa saja yang di fetch dari blog yang dijelajahi?
A : Sementara ini hanya mencari LINK blog untuk dimasukan kedatabase. Dan link tersebut hanya diambil dari kotak SHOUTBOX. Tidak dari post atau artikel.

Q : Apakah mungkin BlogCrawler ini berhenti bekerja?
A : Sangat mungkin. Karena bot ini hanya akan terus berjalan ketika beberapa kondisi tertentu terpenuhi. Seperti : masih ada collected list web yang belum dijelajahi. Atau misalnya ketika jejaring blog yang sedang dijelajahi sudah mencapai titik maksimalnya. Jadi jika ketika bot menemukan kondisi yang tidak terpenuhi maka dia akan berhenti dengan sendirinya.

Q : Apa bedanya dengan crawler search engine seperti Google Bot/ Yahoo Bot?
A : Beda. Mereka memfetch konten web, dan memparsingnya kedalam beberapa kriteria, lalu memprosesnya sesuai prosedur yang mereka rahasiakan. Dengan modal data ini lah mereka bisa menentukan page rank sebuah halaman blog.

Q : Lalu apakah proyek ini dirilis ke sesama blogger nantinya?
A : Tergantung keputusan bersama sajalah. Dan tentu, tergantung donatur yang membantu seluruh proyek ini berjalan. Yang jelas, asal tidak dimanfaatkan jadi ajang SPAM. Karena yang ada nantinya malah budaya blogwalking menjadi hilang, dan blogger ramai - ramai menggunakan bot ini hanya sekedar untuk promosi, mencari traffic, atau mendapatkan page rank saja. Tidak. Tidak.

Q : Apakah ini sebuah karya plagiat?
A : Bisa dibilang iya. WebCrawl mah udah ada dari jaman search engine pertama. Malah mungkin tekniknya udah ada jauh sebelumnya waktu dibuat sebagai worm yang mengukur seberapa besar luas internet kala itu. Namun kan sekarang internet sudah terlalu luas. Crawler dibuat dengan berbagai macam variasi, teknik dan tujuannya. Masalah kesamaan istilah, teknik, alur maupun cara kerja itu gak saya pedulikan. Toh yang penting, saya membuat ini sendiri dari nol, dan tidak mengambil/memotong source code crawler GPL dari sumber manapun, kecuali google sebagai referensi pemrograman. Dan satu lagi ingat, saya dedikasikan khusus untuk tujuan blogwalking.

Q : Lalu bagaimana dengan search engine lokal yg dibahas dipost sebelumnya?
A : Kan udah saya bilang, namanya juga mimpi. Gratis toh?Hehehe. Tapi yang jelas sih, tinggal tambahin sentuhan spesifikasi yang memadai dan dengan pembenahan kode disana sini kita bisa mulai membuat search engine khusus blogger lokal. Ya tapi tetap, crawlingnya juga dibantu dengan bantuan resource gak terpakai di pc blogger, tentunya.

Referensi bagus untuk anda yang mau memulai memahami, atau mencobanya sendiri :
http://bacadulu.co.cc/webcrawler

Timeline:

Selasa 19 May 2009, 01:15 WIB
Running ShoutPoster #1 yg khusus dibuat untuk otomatis posting ke shoutbox

Selasa 19 May 2009, 03:23 WIB
Ternyata BlogCrawler #1 saya berhenti karena sudah kehabisan target web yg belum dikunjungi. Kemungkinan penyebab pertamanya ialah lingkup network blogger yang telah mencapai titik maksimal. Lingkaran jejaring blogger yang saya mulai dari blog pribadi saya ini mungkin saja telah mencapai titik dimana seluruh blogger didalam jejaring blog yang ada dishoutbox telah dikunjungi.
Statistiknya :
Running selama 1 Hari , 6 Jam, 23 Menit atau 34jam,23 menit atau rata - rata menjelajah sebanyak 5 blog / menit.

Total Web terjelajah : 11464 blog
Total ShoutBox ditemukan : 3774 buah.

INFO: saat ini BlogCrawler #2 telah dijalankan dengan menggunakan blog acak dari daftar web yang terkoleksi sebagai web pertama yang dicrawl (http://all-musik.blogspot.com). Semoga saja crawler saya kali ini bisa menemukan cincin jejaring blog yang berbeda dengan jejaring blog yang telah di temukan sebelumnya. Apabila terjadi penemuan kesamaan jejaring, maka crawler akan berhenti sendiri karena kehabisan daftar target webnya.

Silahkan pantau terus di http://mawarbiru.co.cc/shoutcrawl/ teman - teman

Selasa 19 May 2009, 18:40 WIB
ShoutPoster #1 telah berhenti di angka 5278. Artinya seluruh shoutbox tersebut telah di jejaki oleh web crawler saya. Dan mohon maaf untuk rekan - rekan yang memiliki dobel sampai triple post di SHOUTBOXNYA. Sementara itu untuk script penjelajah masih terus running dan melakukan counting sampai saat ini. Dan tampaknya script saya kali ini telah menemukan jejaring blog yang baru, dan sedikit bergeser kearah blog milik warga Malaysia dan beberapa negara lainnya. Ini membuktikan bahwa berhentinya proses crawling di eksekusi pertama memang karena jejaring blog di lingkup blog pribadi saya ini telah selesai di jelajahi. Sementara itu ShoutPoster #2 telah dijalankan dengan list shoutlist dari hasil kerja sementara

Mohon maaf untuk anda yang tidak bisa membuka dan melihat update live dari web crawler. Tampaknya server mulai mengalami kewalahan karena melonjaknya traffic yang masuk. Terbukti dengan kiriman email notifikasi dari hyperspin yang memberitahukan bahwa server sempat mati 5 jam di siang hari tadi.




Untuk sementara rekan - rekan bisa melihat perkembangan efek web crawler ini terhadap traffic blog dengan memantau jumlah pesan di SHOUTBOX, FEEDJIT Live Traffic, atau hit counter blog ini.

Oh iya, untuk rekan -rekan yang telah mengirimkan email dan komentar, baik itu saran, kritik, maupun donasi, mohon maaf apabila saya belum sempat membalasnya hari ini. Namun saya janji akan secepatnya membalas seluruh komentar dan email rekan - rekan.

Terimakasih atas dukungan dan supportnya teman - teman!

Selasa 19 May 2009, 20:05 WIB

Running BlogCrawler #3 dengan web jelajah pertama http://nugrohoadipratama.com.
Live update nya bisa diliat di http://mawarbiru.co.cc/shoutcrawl2/
Dan tidak lama kemudian ShoutPoster #3 running bermodalkan list shoubox dari BlogCrawler #3.

Rabu 20 May 2009, 00:00 WIB

ShoutPoster #2 telah berhenti bekerja. Dikarenakan daftar shoutbox telah dikunjungi semua. Bahkan ditemukan ribuan shoutbox yang sama dengan koleksi shoutbox yang ditemukan BlogCrawler #1 sebelumnya. Saya sampai tidak yakin dan merechecknya dengan mengecek 7 halaman per ShoutBox hanya untuk mengecek apakah ShoutPoster telah mengunjunginya sebelumynya.

Dan ternyata kemungkinannya BlogCrawler #1 dan #2 memiliki irisan jejaring blog pada jalur jelajahnya. Walaupun semakin kesininya hasil jelajah BlogCrawler #2 lebih kearah blog - blog milik warga Malaysia. Namun bagaimanapun juga saya masih menunggu hasil kelanjutan dari BlogCrawler #2 ini.


Untuk ShoutPoster #3 juga mengalami kejadian serupa dengan penjelasan diatas. Namun, ShoutPoster #3 masih terus running sampai sekarang.


Rabu 20 May 2009, 06:15 WIB


BlogCrawler #2 telah berhenti beraktifitas. Tampaknya sang bot hanya menemukan Blog yang "itu itu saja" melulu. Mengapa? Mungkin saja karena pada kurun waktu jelajahnya, hanya sekian ribu blogger di jejaring blog yang sedang aktif dishoutboxnya, dan sialnya ribuan blog itu telah dijelajahi oleh bot sebelumnya. Selain tu, ShoutPoster #3 pun juga akhirnya berhenti beraktifitas. Jadi saat ini tinggal BotCrawler #3 yang masih berjalan (tapi mungkin sore ini akan berhenti juga).

ShoutPoster tidak akan saya eksekusi dulu sampai batas waktu yang belum ditentukan. Saya masih ingin meneliti lebih jauh hasil jelajah dan kerja yang dilakukan dua bot ini. Sambil memikirkan mau dibawa kemana proyek ini kedepannya, saya juga sedang menimbang - nimbangkan seluruh saran dan donasi yang masuk ke email. Jadi untuk rekan - rekan, bukannya saya tidak mau membalas komentar dan seluruh masukan yang diterima lho ya. Harap maklum karena saya juga tidak punya waktu banyak untuk proyek ini.

Beberapa blogger telah menganggap ini adalah kegiatan pembuatan mesin spam yang hanya menyampah di internet saja. Buat saya tidak, karena saya dari alur yang saya buat di post sebelumnya sudah jelas : BlogCrawler dan ShoutPoster adalah dua bot yang berbeda. BlogCrawler adalah bot penjelajah, bot utama yang di sedang dikembangkan untuk kepentingan mengumpulkan data. Dan ShoutPoster ialah si peninggal jejak, mesin yang berpotensial menjadi SPAM ENGINE. ShoutPoster saya gunakan di uji coba ini hanya untuk memberi jejak pada blog yang telah dijelajahi agar mudah untuk dianalisis nantinya. Tidak untuk dikembangkan lebih jauh.

Akhir kata, semoga saja kedepannya setelah kemana arah proyek ini ditentukan, penelitian akan dilanjutkan dengan merivisi kode disana sini, dan semoga akhirnya kita semua bisa merasakan manfaat bersama proyek ini, untuk para blogger khususnya. Amin.


14 komentar:

jumeno mengatakan...

pertamax dah

bagi donk omz sourcenya ;))

nyoman mengatakan...

jadi cbox belum bisa ya karena ada kode verifikasinya dulu :P

BlackBerry mengatakan...

Mas, ini saya, Blackberry. Kemarin dulu sempet komentar di post anda. Mau komplain sebenarnya mas, tapi bukan buat anda sendiri, tapi lebih ke para blogger2 pemalas yg blogwalkingnya pakek program seperti yang mas punya. It HURTS my eCPM... saya kehilangan BANYAK dr pendapatan saya yg gak seberapa itu mas. Saya mau minta tolong gimana memfilter program semacam itu? Bukannya saya rese' atw gimana, tapi orang seperti saya, yg onlinenya juga masih di warnet yang dihitung perjam (dgn kata lain punya waktu yg sangat terbatas utk blogwalking)dan semua itu diancurkan (secara harfiah) oleh orang2 malas, sementara saya sendiri (sesulit/semahal apapun) tetap blogwalking secara manual, karena saya percaya, blogwalking harus dilakukan dengan cara ini...benar2 dirugikan... Saya minta tolong bantuannya. Anda bisa cek shoutbox saya...dr traffic yg cuma segitu, spammernya berapa sendiri, tolong mas bantu saya...Terimakasih sebelumnya...harap bales di shoutbox saya aja, karena section komen saya, gak tau kenapa, gak bisa dipakek. Tolong ya mas...

Judotens Maulid Budiarto mengatakan...

@Blackberry,

hmm..
blogcrawler yg saya buat gk mungkin dikira spam, bahkan gak masuk itungan di live trafficnya feedjit. tapi klo bot yg tukang post shoutbox mungkin aja.

dari kmaren jg saya udah liat ada beberapa blog yg sbenernya udah pake trik ini untuk promonya. bisa diliat kok diribuan shoutbox blogger indo, jejaknya slalu muncul selain jejak judotenslab.

buat kasus blog mas, barusan saya liat dan ternyata mayoritas spammernya dari luar. ip addressnya beda2 dan lumayan susah buat ngebypass.

pertama, mas pake blogspot, dan gw blm coba apa blogger nyediain fasilitas ngeblok per ip. klo mau pake javascript sebenernya bisa bikin ip yg diblacklist otomatis keredirect. tapi sayangnya rata2 bot kaya gini gak memproses javascript karena mereka running di perl, mksdnya bukan di browser.

jadi saran gw ganti aja shoutmixnya pake yg ada image verificationnya, semacem CBOX. walopun udah byk engine yg bisa ngebaca captcha, seenggaknya spammer diblog mas bisa lebih ditahan.

semoga membantu yah mas..

Judotens Maulid Budiarto mengatakan...

@ Blackberry,

oh iya sob gw baru inget. di shoutbox admin tuh ada menu buat ngebann ip/url kok. kenapa gak lo coba dl aja dari sana..

good luck

BlackBerry mengatakan...

Thx berat bro. Makanya tempo hari saya bilang jangan sampai project mas itu jatuh ke tangan pendekar berwatak jahat. hihihi...Thx sekali lagi. Oh yah, yg featurenya shoutmix itu udah saya coba, tp ada beberapa, contoh: IP 50.162, yg masi tembus...Thx buat infonya dan tetap berkarya...kasus saya ini bisa jadi PR buat project mas selanjutnya. Link anda udah saya tambahin ke friendlist....jd gampang tanya2 kalok ada problem lagi...Sekali lagi thx.

ups... mengatakan...

mas..terus terang nih aku suka gagasan anda ini. ya memang sebanrnya anak bangsa kita itu pinter-pinter kok, cuma kadang kla kita kekurngan biaya untuk mengembangkan apa yang kita bisa. sesuatu yang berangkat dari Nol pasti hasilnya akan lebih memuaska daripada yang cuma instan.. semoga semakin hari semakin berkembang..Lam sukses

jatger mengatakan...

mas..terus terang nih aku suka gagasan anda ini. ya memang sebanrnya anak bangsa kita itu pinter-pinter kok, cuma kadang kla kita kekurngan biaya untuk mengembangkan apa yang kita bisa. sesuatu yang berangkat dari Nol pasti hasilnya akan lebih memuaska daripada yang cuma instan.. semoga semakin hari semakin berkembang..Lam sukses

Secret 4 SEO mengatakan...

sebenarnya untuk mendapatkan software ini gampang2 susah sih ^^ malah di "sana" ada yg buat naikin PR dengan memanfaatkan blog dengan dofollow

Hm...benar sekali ini tehnik Black SEO jangan di sebarin mas kasihan yg punya blog dapet spamm mulu hihihi ^^

Semangat....

Anton mengatakan...

Proyek yang menarik

4over18 mengatakan...

Eksperimen yang menarik

Mas Andy mengatakan...

mau dong scriptnya :D
pengen nyobain aja :D

Siais mengatakan...

wah keren banget nih projectnya... mudah2an berguna ya bagi kita2..

dukung blog saya...

lalacan mengatakan...

Hebat euy, SB ku kok blom dilewati ya? baru buat sich hehehe...
Sukses ya!!