Sebelumnya untuk memudahkan penelusuran timeline history, saya coba beri kode dahulu untuk setiap script berdasarkan eksekusinya.
BlogCrawler : bot pertama, yang bertugas menjelajah jejaring blog lewat shoutbox
ShoutPoster : bot kedua, yang bertugas memposting ke daftar jejaring shoutbox, hasil dari penjelajah bot pertama
F.A.Q :
Q : Apa hanya shoutbox yang dicari oleh BlogCrawler?
A : Sampai saat ini iya.
Q : Mengapa?
A : Karena shoutbox masih belum menggunakan image verification untuk mencegah bot/spam.
Q : Lalu apakah kegiatan ini bisa dianggap SPAM?
A : Bisa. Tergantung tujuan mau dibawa kemanakah proyek kita ini.
Q : Lalu apa saja yang di fetch dari blog yang dijelajahi?
A : Sementara ini hanya mencari LINK blog untuk dimasukan kedatabase. Dan link tersebut hanya diambil dari kotak SHOUTBOX. Tidak dari post atau artikel.
Q : Apakah mungkin BlogCrawler ini berhenti bekerja?
A : Sangat mungkin. Karena bot ini hanya akan terus berjalan ketika beberapa kondisi tertentu terpenuhi. Seperti : masih ada collected list web yang belum dijelajahi. Atau misalnya ketika jejaring blog yang sedang dijelajahi sudah mencapai titik maksimalnya. Jadi jika ketika bot menemukan kondisi yang tidak terpenuhi maka dia akan berhenti dengan sendirinya.
Q : Apa bedanya dengan crawler search engine seperti Google Bot/ Yahoo Bot?
A : Beda. Mereka memfetch konten web, dan memparsingnya kedalam beberapa kriteria, lalu memprosesnya sesuai prosedur yang mereka rahasiakan. Dengan modal data ini lah mereka bisa menentukan page rank sebuah halaman blog.
Q : Lalu apakah proyek ini dirilis ke sesama blogger nantinya?
A : Tergantung keputusan bersama sajalah. Dan tentu, tergantung donatur yang membantu seluruh proyek ini berjalan. Yang jelas, asal tidak dimanfaatkan jadi ajang SPAM. Karena yang ada nantinya malah budaya blogwalking menjadi hilang, dan blogger ramai - ramai menggunakan bot ini hanya sekedar untuk promosi, mencari traffic, atau mendapatkan page rank saja. Tidak. Tidak.
Q : Apakah ini sebuah karya plagiat?
A : Bisa dibilang iya. WebCrawl mah udah ada dari jaman search engine pertama. Malah mungkin tekniknya udah ada jauh sebelumnya waktu dibuat sebagai worm yang mengukur seberapa besar luas internet kala itu. Namun kan sekarang internet sudah terlalu luas. Crawler dibuat dengan berbagai macam variasi, teknik dan tujuannya. Masalah kesamaan istilah, teknik, alur maupun cara kerja itu gak saya pedulikan. Toh yang penting, saya membuat ini sendiri dari nol, dan tidak mengambil/memotong source code crawler GPL dari sumber manapun, kecuali google sebagai referensi pemrograman. Dan satu lagi ingat, saya dedikasikan khusus untuk tujuan blogwalking.
Q : Lalu bagaimana dengan search engine lokal yg dibahas dipost sebelumnya?
A : Kan udah saya bilang, namanya juga mimpi. Gratis toh?Hehehe. Tapi yang jelas sih, tinggal tambahin sentuhan spesifikasi yang memadai dan dengan pembenahan kode disana sini kita bisa mulai membuat search engine khusus blogger lokal. Ya tapi tetap, crawlingnya juga dibantu dengan bantuan resource gak terpakai di pc blogger, tentunya.
Referensi bagus untuk anda yang mau memulai memahami, atau mencobanya sendiri :
http://bacadulu.co.cc/webcrawler
Timeline:
Selasa 19 May 2009, 01:15 WIB
Running ShoutPoster #1 yg khusus dibuat untuk otomatis posting ke shoutbox
Selasa 19 May 2009, 03:23 WIB
Ternyata BlogCrawler #1 saya berhenti karena sudah kehabisan target web yg belum dikunjungi. Kemungkinan penyebab pertamanya ialah lingkup network blogger yang telah mencapai titik maksimal. Lingkaran jejaring blogger yang saya mulai dari blog pribadi saya ini mungkin saja telah mencapai titik dimana seluruh blogger didalam jejaring blog yang ada dishoutbox telah dikunjungi.Statistiknya :
Running selama 1 Hari , 6 Jam, 23 Menit atau 34jam,23 menit atau rata - rata menjelajah sebanyak 5 blog / menit.
Total Web terjelajah : 11464 blog
Total ShoutBox ditemukan : 3774 buah.
INFO: saat ini BlogCrawler #2 telah dijalankan dengan menggunakan blog acak dari daftar web yang terkoleksi sebagai web pertama yang dicrawl (http://all-musik.blogspot.com). Semoga saja crawler saya kali ini bisa menemukan cincin jejaring blog yang berbeda dengan jejaring blog yang telah di temukan sebelumnya. Apabila terjadi penemuan kesamaan jejaring, maka crawler akan berhenti sendiri karena kehabisan daftar target webnya.
Silahkan pantau terus di http://mawarbiru.co.cc/shoutcrawl/ teman - teman
Selasa 19 May 2009, 18:40 WIB
ShoutPoster #1 telah berhenti di angka 5278. Artinya seluruh shoutbox tersebut telah di jejaki oleh web crawler saya. Dan mohon maaf untuk rekan - rekan yang memiliki dobel sampai triple post di SHOUTBOXNYA. Sementara itu untuk script penjelajah masih terus running dan melakukan counting sampai saat ini. Dan tampaknya script saya kali ini telah menemukan jejaring blog yang baru, dan sedikit bergeser kearah blog milik warga Malaysia dan beberapa negara lainnya. Ini membuktikan bahwa berhentinya proses crawling di eksekusi pertama memang karena jejaring blog di lingkup blog pribadi saya ini telah selesai di jelajahi. Sementara itu ShoutPoster #2 telah dijalankan dengan list shoutlist dari hasil kerja sementara
Mohon maaf untuk anda yang tidak bisa membuka dan melihat update live dari web crawler. Tampaknya server mulai mengalami kewalahan karena melonjaknya traffic yang masuk. Terbukti dengan kiriman email notifikasi dari hyperspin yang memberitahukan bahwa server sempat mati 5 jam di siang hari tadi.
Untuk sementara rekan - rekan bisa melihat perkembangan efek web crawler ini terhadap traffic blog dengan memantau jumlah pesan di SHOUTBOX, FEEDJIT Live Traffic, atau hit counter blog ini.
Oh iya, untuk rekan -rekan yang telah mengirimkan email dan komentar, baik itu saran, kritik, maupun donasi, mohon maaf apabila saya belum sempat membalasnya hari ini. Namun saya janji akan secepatnya membalas seluruh komentar dan email rekan - rekan.
Terimakasih atas dukungan dan supportnya teman - teman!
Selasa 19 May 2009, 20:05 WIB
Running BlogCrawler #3 dengan web jelajah pertama http://nugrohoadipratama.com.Rabu 20 May 2009, 00:00 WIB
Live update nya bisa diliat di http://mawarbiru.co.cc/shoutcrawl2/
Dan tidak lama kemudian ShoutPoster #3 running bermodalkan list shoubox dari BlogCrawler #3.
ShoutPoster #2 telah berhenti bekerja. Dikarenakan daftar shoutbox telah dikunjungi semua. Bahkan ditemukan ribuan shoutbox yang sama dengan koleksi shoutbox yang ditemukan BlogCrawler #1 sebelumnya. Saya sampai tidak yakin dan merechecknya dengan mengecek 7 halaman per ShoutBox hanya untuk mengecek apakah ShoutPoster telah mengunjunginya sebelumynya.
Dan ternyata kemungkinannya BlogCrawler #1 dan #2 memiliki irisan jejaring blog pada jalur jelajahnya. Walaupun semakin kesininya hasil jelajah BlogCrawler #2 lebih kearah blog - blog milik warga Malaysia. Namun bagaimanapun juga saya masih menunggu hasil kelanjutan dari BlogCrawler #2 ini.
Untuk ShoutPoster #3 juga mengalami kejadian serupa dengan penjelasan diatas. Namun, ShoutPoster #3 masih terus running sampai sekarang.
Rabu 20 May 2009, 06:15 WIB
BlogCrawler #2 telah berhenti beraktifitas. Tampaknya sang bot hanya menemukan Blog yang "itu itu saja" melulu. Mengapa? Mungkin saja karena pada kurun waktu jelajahnya, hanya sekian ribu blogger di jejaring blog yang sedang aktif dishoutboxnya, dan sialnya ribuan blog itu telah dijelajahi oleh bot sebelumnya. Selain tu, ShoutPoster #3 pun juga akhirnya berhenti beraktifitas. Jadi saat ini tinggal BotCrawler #3 yang masih berjalan (tapi mungkin sore ini akan berhenti juga).
ShoutPoster tidak akan saya eksekusi dulu sampai batas waktu yang belum ditentukan. Saya masih ingin meneliti lebih jauh hasil jelajah dan kerja yang dilakukan dua bot ini. Sambil memikirkan mau dibawa kemana proyek ini kedepannya, saya juga sedang menimbang - nimbangkan seluruh saran dan donasi yang masuk ke email. Jadi untuk rekan - rekan, bukannya saya tidak mau membalas komentar dan seluruh masukan yang diterima lho ya. Harap maklum karena saya juga tidak punya waktu banyak untuk proyek ini.
Beberapa blogger telah menganggap ini adalah kegiatan pembuatan mesin spam yang hanya menyampah di internet saja. Buat saya tidak, karena saya dari alur yang saya buat di post sebelumnya sudah jelas : BlogCrawler dan ShoutPoster adalah dua bot yang berbeda. BlogCrawler adalah bot penjelajah, bot utama yang di sedang dikembangkan untuk kepentingan mengumpulkan data. Dan ShoutPoster ialah si peninggal jejak, mesin yang berpotensial menjadi SPAM ENGINE. ShoutPoster saya gunakan di uji coba ini hanya untuk memberi jejak pada blog yang telah dijelajahi agar mudah untuk dianalisis nantinya. Tidak untuk dikembangkan lebih jauh.
Akhir kata, semoga saja kedepannya setelah kemana arah proyek ini ditentukan, penelitian akan dilanjutkan dengan merivisi kode disana sini, dan semoga akhirnya kita semua bisa merasakan manfaat bersama proyek ini, untuk para blogger khususnya. Amin.