Senin, 18 Mei 2009

Membangun Web Crawler / Web Spider sendiri, cikal bakal search engine lokal Indonesia?

Sejak aktif kembali menulis blog beberapa hari ini, saya merasakan satu hal yang lumayan cape untuk dilakukan, yaitu : blogwalking. Blogwalking yang saya lakukan biasanya mungkin disebut nyampah oleh para blogger. Mengapa? Karena blogwalking yang dilakukan hanya sekedar 'jalan-jalan' ini bertujuan mengunjungi berbagai blog dan mencari kotak ShoutBox-nya dan kemudian meninggalkan jejak disana. Tidak seperti para blogger yang memang berniat membangun good relationship dengan mengomentari artikel dari blog yang bersangkutan.

Lalu apa hubungannya dengan sebuah Web Crawler?
Setelah merasa cape blogwalking seharian, saya terpikirkan untuk membuat sebuah bot yang berfungsi menggantikan pekerjaan saya, yaitu blogwalking dan meninggalkan jejak di ShoutBox para blogger. Hmm, PR yang menantang dan menarik untuk diimplementasikan bukan?

Awalnya kode ini saya mau buat dilingkungan PHP atau VB saja, namun karena adanya keterbatasan - dan kekurangan di tiap bahasa tersebut akhirnya saya lebih memilih PERL sebagai landasan programmingnya.

Dua jam berkutat dengan PERL dan dengan hanya bermodalkan google dan pengalaman minim di PERL, akhirnya script ini pun selesai dikerjakan. Yap, walaupun masih beta -tapi Web Crawler yang saya buat ini sudah memiliki fungsi utamanya, yaitu menjelajah blog - blog dan kotak ShoutBox.

Web Crawler / Web Spider ini saya coba running test ( web pertama yang dijelajahi adalah http://judotenslab.blogspot.com ) pada hari Minggu, 17 May 2009 Pukul. 21.55 WIB dan masih terus berjalan sampai sekarang. So far, pada hari ini (Senin, 18 May 2009 Pukul. 13:16 WIB) total web yang dicrawler sudah mencapai : 6408 website dan menemukan sekitar 2350 kotak ShoutBox milik para bloger dalam kurun waktu 15 Jam, 10 Menit.

Hasil yang cukup memuaskan bukan? Namun sedikit disayangkan Web Crawler judotenslab ini berjalan di server kosan yang menggunakan koneksi TELKOM SPEEDY dengan kecepatan standar. Bisa dibayangkan apabila saya mendapatkan donatur yang mau meminjamkan server berkecepatan tinggi-nya untuk melakukan test Web Crawler Performance ini, mungkin hasil yang didapat akan jauh berkali lipat.

Setelah melihat hasil yang cukup memuaskan, saya malah kepikiran untuk memanfaatkan Web Crawler saya ini sebagai modal utama membuat Search Engine sendiri. Yah, setidaknya Search Engine khusus blog lokal-lah. Tapi tentu tidak segampang itu merealisasikannya. Minimal saya harus memiliki server utama yang kuat, dari segi Bandwith dan Spesifikasinya. Dan satu lagi, faktor keberuntungan tampaknya juga berpengaruh. Hehehe. Maklum, tampaknya masi mimpi muluk untuk benar - benar merealisasikannya jika dilakukan sendiri dan tanpa bantuan rekan - rekan blogger yang lain.

Rencana lain yang sedang di persiapkan adalah membuat Web Crawler ini bisa running ramai - ramai di berbagai PC yang berbeda, namun tetap dengan hasil yang berbeda pula. Jadi dengan teknik seperti ini, Web Crawler / Web Spider buatan saya menjelajah jutaan website dengan lebih cepat dengan bantuan dari para blogger semuanya. Dan teman - teman pun bisa membantu menyumbangkan kinerja komputernya yang tidak terpakai untuk melakukan crawling ini setiap harinya.

Semoga saja proyek ini bisa direalisasikan dan didukung penuh oleh mereka yang berkompeten. Karena saya pikir, kita bisa memiliki dan merasakan manfaat yang lebih banyak dari Search Engine Lokal yang kita bangun. Sekaligus menunjukkan kepada dunia bahwa sumber daya IT di negeri kita pun banyak yang berkualitas, tidak didominasi oleh masyarakat Eropa/Amerika atau India saja.

Jika anda tertaruk untuk memberi donasi server, atau ikut melakukan penelitian Web Crawler / Web Spider ini, silahkan hubungi saya di judotens@gmail.com

Dan teruslah pantau hasil crawler Web Spider saya ini di :
http://mawarbiru.co.cc/shoutcrawl/



Akhir kata, sekian dulu suguhan dari saya kali ini. Teruslah berkarya dan hidupkan industri kreatif di negeri ini.


Untuk mengikuti update dan timeline history bisa mengikutinya di post selanjutnya :
http://judotenslab.blogspot.com/2009/05/latest-update-proyek-webcrawl.html


TAMBAHAN:

Screenshot,

Web Crawler (jelajah blog dan mencari shoutbox2) running ke dua di server windows


Script kedua (posting ke shoutbox) yg running di server windows


Alur sederhana kedua script ini :


*maap berantakan, bikinnya buru2 pake mspaint.wkekekekeke
tapi alurnya cukup jelas kok buat kalian yg mau coba programming sendiri, terserah pake bahasa pemrograman apa dan tujuannya buat apa. yang penting ide dan kreatifitasnya aja sama - sama kita share disini.



MAAF UNTUK ANDA YG TERGANGGU KENYAMANNYA, SILAHKAN TULIS URL ANDA DISINI JIKA TIDAK INGIN DILEWATI UJI COBA WEB CRAWLER INI.


Salam,
Judotens M.B

293 komentar:

«Terlama   ‹Lebih tua   201 – 293 dari 293
free ebooks mengatakan...

wah, hebat nih, bikin cikal bakal SEI (search engine indonesia). sukses bro! lebih seru lagi kalo crawlernya bisa komen sendiri termasuk mengakali captcha hehe...

Teddy mengatakan...

SUMPAH KEREN ABIZ UJICOBA NYA
salut bro !
sampai blog gw jg dilewatin web crawlernya
kereen

Fahmi mengatakan...

makasih blog saya udah di samperin .........salam kenal ya mas.

Pixel mengatakan...

Hebat son.. Semoga sukses ..

Farrell De Mohammad mengatakan...

boleh juga nehhh idenya...tapi artikelnya kepanjangan..males baca..udah ngantukkk...heheheh...anyway, suksesnya ama web spidernya

kutu buku mengatakan...

WOW Keren crawler buatan Indonesia, terus kembangkan sob.. sampai jadi search engine Indonesia. search engine bisnis yang menguntungkan..

Master mengatakan...

Bener2 Cool...

ada aja akalnya km Bang...
Salut!

Asep Dadang mengatakan...

jangan lanjut developnya d, ntar bisa2 blog jadi tempat buat nyampah n cari pr doang, buat apa nge-blog kl kek gitu, kl emg mau ya develop sendiri aja, pake sendiri

Nasrul Kurniawan mengatakan...

server hosting ikut down ? wow ...

asalh gag blogspotnya aja yg down


LANJUTKAN!!!!! ^^

rickyok mengatakan...

Hoo.. rupanya saya bukan satu2nya ^^; saya juga ada buat script seperti ini juga, persis algoritmanya sangat mirip sekali. Hasil crawl kita juga engga beda banyak sepertinya, hanya beda beberapa ratus ajah ^^

Salam kenal yah.

joresan freedom mengatakan...

blok aq br aja dilewaty...
sipp bozz... klo ikut gmna carane nih....

Grand Paragon mengatakan...

wow mantap nihhh

Vicky mengatakan...

Keren rencananya...

Sekarang aja sudah bisa dibilang sukses...

Semoga rencana dan usaha-usahanya kedepan lebih sukses lagi, dan memberikan dampak yang sangat positif bagi kita semua...

Thanks :)

Fei mengatakan...

kerennnnnnnnnn...........ajibbbbbbbbbbb...........muantafffffffffff............coollllllllllllllllllll....ajarin atuh kumaha cara buatna. capek juga blogwalking berjam2 wakakakakakakakakakakakakaka

0(^_^)0 Always Happy mengatakan...

adakah yang mau teh blog saya heuhaeuu... tp awas jangan di awut2 nyakkk b-(

0(^_^)0 Always Happy mengatakan...

btw thanks mass udah di uji hasil uji lab. nya mana pengen tahu atuh... da baik... ci mah... hehehhehuehau... ouhh ya calam kenal aja...
404

thank regrad

kifni mengatakan...

pernah kepikiran gitu tapi cuma angan2,,
tapi itu yang dikunjungi setelah masuk list, cuma shoutbuxNya apa juga masih masuk ke url blogNYa??
itu berlaku untuk semua yipr shoutBUx ga??

imamnet mengatakan...

Wow,, sebuah terobosan yg spektakuler sobat... Sukses ya...
Hmm kira2 blogger indonesia kebagian scriptnya gak ya?hehe

blackskin mengatakan...

Mak nyuss..mantap maz dan terima kasih.

Tetep semangat untuk belajar...

SKEPTIS mengatakan...

wahhh...menurutku cara ini gak baik! soalnya kita kan sesama blogger harus saling kenal secara nyata dan saling tau apa sih isi blog teman2 yg kita kunjungi/ apa sih postingan2 bermutunya. nah kalo pake cara ini, yang berkunjung bukan kita dong tapi robot spider pengunjung blog! jadi mana ada silaturahmi diantara sesama blogger kalo yg berkunjung itu robot spider!
gmn temen2....pasti ada yg setuju dan nggak! tp saya yakin pasti banyak yang setuju.
VIVA BLOGGER :)

Fia al Kurosawa mengatakan...

beruntung aq ga faham bahasa pemrograman sehingga aq ga perlu puyeng2 mikir, tinggal nunggu copy paste dari temen2 blogger laennya..hi hi hi...ampun-ampun...jangan pernah ragu untuk berbagi fren...saya dukung dengan jejak di komment yah...abis ga punya bandwitch atau server atau apapun..koneksi ini aja nebeng di Kampus..hi hi

Karl mengatakan...

wah dengan cara ini brarti ALEXA nya PALSU dong...lha yg berkunjung kan Robot/Spider bukan Bloggernya!! kasian blogger yg berkunjung secara Manual dong! NOT FAIR!! komentku ini ditampilin gak ya? will see.

Hendra mengatakan...

keren bro alur script nya kelihatan sederhana btw klu gak expert bikin coding wedew !! ,...boleh nih sharing ilmunya wkwkwkw ( canda ) masih baru belajar nih....Sukses NIH mudah mudah ntar kita punya search engine yang masuk 3 besar dunia ...

raihan mengatakan...

Maju terus mas, saya dukung terus

CAHAYA NURANI mengatakan...

asslmkm,,,
sobat,,, saya baru saja mendengar tentang istilah ini,,, tapi,,, hmmm,,, bagus juga,,,

Keren keren keren,,,
ya mungkin suatu saat saya bisa belajar lebih dalam hal ini.

Thanks sudah mampir n memberikan info yang menaik

farikha mengatakan...

wah hebat terusin aja berkarya bos,,,moga sukses kalo sukses bagi bagi ya

beebill mengatakan...

wah cadas abis nih idenya...
ga keberatan deh blogku jadi kelincinya...
maju terus brother's...

Ivan mengatakan...

Wah....Blogku jg kelewatan crawler nya lho mas..... Mangnya pake Program apa to mas....?

pandu mengatakan...

ma ksih banyak...
tolong komen di http://pandu-an.blogspot.com/2009/05/cara-membuat-spoiler-yang-benar-pada.html

ama http://pandu-an.blogspot.com/2009/05/cara-mengganti-blog-no-follow-menjadi_16.html

andro_simar mengatakan...

wah,, hampir sesak nafas aku bacanya,, haha,, mantep deh mas,, :D

jrink mengatakan...

oh ini toh yg lewat blog gue, he3.. bikin penasaran aja dan ternyata ada niatan ntu musti kita beri apresisasi yg cukup tinggi. menurutku bagi para blogger yang "tak sengaja telah dilewati" program tsb tidak sepantasnya untuk berkeberatan sepanjang tidak mengandung unsur (maupun berdampak) negatif. terus berkarya bro... maju teroes pantang moendoer...

BookTalk mengatakan...

wuah keren....
blogku jg dah 'dlalui'

good job...
skses sll yah... ^_~

Ajeng mengatakan...

Ilmunya bermanfaat..
Makasih,boleh di copas toh?

tito mengatakan...

wesss... keren bos, manstaps punya !
smoga makin oke rancangan nya, kita tunggu langkah selanjutnya. :)

Fiz mengatakan...

Maju terus IT lokal...!!

Kumpulnet mengatakan...

idenya ok banget nih...
btw dg crawler tsb, blog yg kita kunjungi dg meninggalkan jejak di shoutbox, apakah juga terdeteksi oleh layanan histats.com? atau sejenisnya, yg ini berarti menambah statistik kunjungan blog kita...
ataukah hanya akses shoutboxnya aja?

semar mengatakan...

mantav sob.... lanjut..
Salam kenal

Yahdi Siradj mengatakan...

mantap, gan! keren banget... jadi inspirasi nih!! Lanjutkan!

Anonim mengatakan...

dftar segera kontes seo dengan keyword wisata seo sadau" visit di sini http://kanglik-wongbk.blogspot.com"

Ari Maulana mengatakan...

sob w bingung.

kanjoko mengatakan...

project yang bagus sekali, Bravo judotenslab :)

adis mengatakan...

I think it's too good to be true...

aksesoris blog mengatakan...

blg juga percobaannya...bgm sy bs dptkan itu?hehehe....

Thin Clients mengatakan...

Kunjungan balasan boss terima kasih dan mau berkunjung, proyek besarnya semoga cepat kelar boss, good luck.

KAISAR 212 mengatakan...

salut...terus saja berjuang..saya hanya bisa berikan doa ni...SEMOGA DALAM WAKTU DEKAT MENDAPATKAN DONATUR YANG BAIK HATI..

ical mengatakan...

Satu kata ... buat anda

Keren!!

Yunan mengatakan...

Blogku juga baru dilalui nih. Ilmunya hebat banget... Tapi jangan dibuat untuk meng-crawel AdSense Google ya, karena bertentangan dengan TOS-nya, akibatnya Google AdSense siempunya blog bisa dibanned. Ilmu ini bisa bisa dipakai u/ meningkatkan trafic blog secara dahsyat... tapi ya itu tadi mohon dipertimbangkan efek buruk bagi orang lain ato siempunya blog. Oke saya dukung kecanggihannya dlm programing.... semoga sukses... tapi mohon disertai kebijaksanaan ya...Cheers..

indoneter mengatakan...

kreatif.. keep bloging dude !!!

Danndaku mengatakan...

Asslm.
Smoga cepet kelar ya PROYEKnya... Trus kita uda gak nempel lagi di Mbah Google, nempel aja di sni SEO nya...he3... BERCANDA Mbah GOG.....

Salam Knal

By beck

budiawanhutasoit mengatakan...

salut buat judo..
two tums up..
saya mah ngga ngerti yang gini2an..
kalo PTR saya tau..hehe

semoga sukses ya bro'

Wildan Arief mengatakan...

waw.. seeb amat deh..
thanks inpo nya yah...

manusiahero mengatakan...

wah masih bingung nih Sob mksudnya..

tpi keren nih blognya..

ahmad mengatakan...

wah program ini jangan sampai jatuh pada konglomerat hitam, bisa2 kita nanti semua ndak jadi gratisan....gmana kalo para blogger urunan aja lima ribuan. sehari dapat seratus donatur kan lumayan. 100 x Rp. 5.000,- = Rp. 500.000,-
sebulan 30 x Rp. 500.000,- = Rp. 15.000.000,- wah......fantastis kan....
asik banget........mau donk....masak ngacooo sih aqu

balidreamhome mengatakan...

seandainya saya diberi kemampuan untuk berbuat seperti anda saya akan sangat bersyukur, karena saya enggak bisa program maka saya menawarkan diri bila anda memerlukan wahana untuk uji coba neh....

Blogger Jakarta mengatakan...

waduh ide mantab nih .. bagi-bagi dunk tutor nye..

nyoman mengatakan...

inovasi baru nih produk lokal :)

Pengangguran Menulis Mimpi mengatakan...

Mendukung kreatifitas.........Mendukung kemajuan......... SEMANGAT..! ! !

edylaw mengatakan...

Wow keren sob, blog aku juga dui lalui. Semangat terus sob demi kemaJUAN IT Indonesia :)

Summase Sanjaya mengatakan...

Minta scriptnya juga dong

Suara Petualang mengatakan...

Teknologi semakin hebat saja...terus berkarya Bhro......salam lestari

pimp mengatakan...

keren amat
ajarin dong om. saya newbie nih :)

http://thinkinsurance2009.blogspot.com
http://pimphimself.co.cc
http://killerdolls-agency.blogspot.com
http://luckyinsuranceforsure.blogspot.com

pendekar mengatakan...

wahhhhh, blogq juga telah terlewati. boleh minta programnya???!!!

kirim ke shadow.red1@gmail.com please!!!!

kakara mengatakan...

Keren frenz.. ku dukung perjuanganmu.. salam sukses.. :)

awan_clickerz mengatakan...

hore...rumahku dah dilewati..*hehhee
abru aja kemarin dokter masuk desa,
sekarang...PLN masuk desa juga..
*loh apa hub nya*...:D)

oke, SEMANGAT,
terus share ilmunya ya..

Yup !

bejo mengatakan...

waduh...
aku mau deh di coba
url _ku maksudnya

stasiun ramal mengatakan...

wah ikutan kasih selamat deh ....

Dimensi muslimah mengatakan...

Ass..eksperimen yang benar2 keren di bidang teknologi komputer..kabari yah artikel eksperimen selanjutnya..n follow me

Inter Pattern Blog mengatakan...

mantaf nih bang idenya salut!!

http://gajahbonge2.blogspot.com/

jatger mengatakan...

kok bisa ya...jadi pengin juga nih program semacam ini...tapi emang harus ati-ati juga sih penggunaanya, program seperti ini bisa dikategorikan spam gak ya..

Rain_ID@RHP mengatakan...

wah hebat punya dah,,,
bangga bgt dah gw sbg orang indonesia pny temen yang bisa buat sperti itu,,,
Pesanku ya terus berkarya dan tingkatkan serta tetap selalu rendah hati,,,
God Bless U,,,

Unknown mengatakan...

wah, blogku terkenal juga ya bisa di crawl sama orang laen...

Pilihan ane mengatakan...

Mantaff Sob,.. lanjutkan experimen nya

rhindhank mengatakan...

heumm... keren banget, sob... moga berhasil dan bermanfaat...

Dollar mengatakan...

Wah bagus banget... blogku juga di-crawl ya.. ok tak support & kembangkan terus sobat. Sayang aku gak bisa bantu nyumbang server. Ajarin scripnya dong...

Ani mengatakan...

Semoga proyeknya berhasil yach, hebat dunk bikin search engine !

Secret 4 SEO mengatakan...

Wah hebat benar bagus buat perkembangannya saya salut habis walaupun blog saya gak di kunjungi

Wah balck SEO yah hampir sama seperti sofwtare yg saya dapat tp beda fungsi yg saya dapat buat naikin PR dengan memanfaatkan comment2 yg mengandung dofollow

Nah punya mas fungsinya buat Blogwaking wah bagus jg ideanya ^^

Cuman saran saya sih sebaiknya jangan di sebarin mas soalnya bisa termasuk Black SEO ^^

hm..buat server yah...keknya sih saya ada rekomendasi cuman gak tau cocok atau sama gak ama yg situ maksud jadi add aja YM saya di andhika_krisna@yahoo.com

So...semangat....inovasinya bagus banget ^^

THX

Denny Van Chi Penyok mengatakan...

wah mantap sob, kayaknya gw harus banyak belajar dr lw neh!

Anonim mengatakan...

muantab....

rastavarian mengatakan...

Kerja yang sangat bagus mas. saya hanya bisa turut memberi semangat aja nih.

HeryCross mengatakan...

Wah... telat neh.. bisa dapatkan programnya itu Bos?
Jujur otakku kayaknya ngga nyampe ke situ hehex
thanks be 4

azaxs mengatakan...

blog saya dilewati juga.. wah hebat.. baru kali ini saya nemui.. kembangkan terus mas! :)

Retro mengatakan...

Salam kenal brow . . good blog . .

renspandy mengatakan...

wah.. keren nih...
blog saya kena juga.. hehe

fana mengatakan...

Hello.

actually im not really understand with this crawler actually.

can you explain more detail and in short way please. i really wanna know =)

hopefully u dont mind *hoping face*
hihhhi =D

Lover mengatakan...

Waaa.... aku sempat merinding dengar namanya. agak serem-serem gimana gitu lho. oke, oke, selamat berjuang untuk proyek ini ya. moga bermanfaat bagi olang-olang lokal dan "interlokal". salam damai Indonesia.

Ardiansyah mengatakan...

Nice blog!

trizno mengatakan...

yakz.. akhir nya sudah ada yg mengikuti jejak saya .. crawling.. shoutbox :)

sampai sekarang.. saya sendiri sih uda koleksi 30k++ active shoutmix,

tetap berkarya :) smoga sukses

Madi mengatakan...

MAAF UNTUK ANDA YG TERGANGGU KENYAMANNYA, SILAHKAN TULIS URL ANDA DISINI JIKA TIDAK INGIN DILEWATI UJI COBA WEB CRAWLER INI.


saya enggak mahu dilawati lagi. banyak posting yang mengganggu. maaf yer bapak.

джб mengatakan...

maap teman - teman gw gak bisa balesin satu satuu =(

thanks utk apresiasi + semangatnya yaa..

hasil crawling database ini uda disumbangin ke jengah.com

sarana buat blogwalking otomatis,
smoga bisa bermanfaat ^_^

aank mengatakan...

wahhh manstab tenan..., programmer sejati neh

rumah dijual mengatakan...

rumah dijual di jakarta, rumah Disewakan di jakarta, Gudang dijual, rumah dijual di tangerang, Apartment dijual, rumah dijual di bsd, ruko dijual, tanah dijual.
Jika anda saat ini sedang mencari rumah dijual, apartmen dijual, hotel dijual, tanah dijual, ruko dan lain sebagainya kami memiliki banyak listing yang dapat anda pilih. silahkan anda tentukan sendiri wiyalah yang anda inginkan kami akan carikan rumah dijual untuk anda.
Rumah dii sewakan di jakarta selatan
Rumah di sewakan di jakarta selatan di lokasi yang premium seperti kebayoran baru, kemang, pondok indah, cilandak, cipete, dharmawangsa, menteng dan kuningan area termasuk area yang masih berkembang di sekitarnya seperti lebak bulus dan wiayah cinere. Kami ada beberapa listingan yang bisa anda gunakan untuk di jadikan bahan pertimbangan dalam properti anda baik untuk di beli, dijual, atau di sewakan
Untuk informasi lebih lengkap silahkan hubungi kami di nomor 021 30076000 atau email info@mahkotaproperty. Com. Anda bisa juga menghubungi kami di nomor 08159700078

Rumah dijual mengatakan...

salut saya anda bisa dapat ranking tinggi di google. bagi2 dong tipsnya

belihome.top mengatakan...

Cream Aura Glow
Cream Theraskin
Cream SPL

«Terlama ‹Lebih tua   201 – 293 dari 293   Lebih baru› Terbaru»