সার্চ ইঞ্জিনের তথ্য সংগ্রহ করার ধাপসমূহ কী কী?
সাধারণভাবে, একটি সার্চ ইঞ্জিন তিনটি ধাপে তথ্য সংগ্রহ করে। ক্রলিং, ইন্ডেক্সিং এবং ফলাফল প্রদান। আজকের আর্টিকেলে আমরা জানব গুগোল কীভাবে এই তথ্যগুলো তার শব্দ ভাণ্ডারে যোগ করে। তো বন্ধুরা চলুন জেনে নেই সার্চ ইঞ্জিনের তথ্য সংগ্রহ করার ধাপসমূহ গুলোঃ
ক্রলিং
প্রথম ধাপে, সার্চ ইঞ্জিন বিশ্বের প্রতিটি ওয়েবসাইটের তথ্য সংগ্রহ করতে তার ক্রলার বা বট কে পাঠায়। দ্বিতীয় ধাপে, ওয়েব ক্রলার বা বট সংশ্লিষ্ট ওয়েবসাইটের কন্টেন্ট বা পোস্ট ক্রল করে। একটি ওয়েবসাইট পোস্টে থাকা সমস্ত ধরণের টেক্সট, ছবি এবং ভিডিওগুলি ক্রলিংয়ের মাধ্যমে ডাটাবেসে সূচীবদ্ধ হয়।
প্রতিটি সার্চ ইঞ্জিনে কোন না কোন Web Crawlers সফটওয়্যার থাকে। সার্চ ইঞ্জিনের ভাষায় তাদের বলা হয় “রোবট বা বট”। এই ওয়েব ক্রলাররা ইন্টারনেটে প্রতিটি ওয়েবসাইটের প্রতিটি লিঙ্ক পরিদর্শন করে। প্রতিবার একটি পেজ পরিদর্শন করা হয়, এটি সেই পেজের নতুন লিঙ্কগুলি সংগ্রহ করে এবং ডেড লিঙ্ক সার্ভার থেকে মুছে দেয়। এইভাবে প্রতিটি পেজ ক্রমাগত ক্রল করা হয় এবং তাদের সার্চ ইঞ্জিন সার্ভারে নতুন তথ্য সংরক্ষণ করা হয়।
সাধারণত প্রতিটি সার্চ ইঞ্জিন সব লাইভ ওয়েবসাইট থেকে যতটা সম্ভব তথ্য সংগ্রহ করতে একটি স্পাইডার বা ওয়েব ক্রলার পাঠায়। যখনই একটি ওয়েবসাইটে নতুন তথ্য যোগ করা হয় বা পুরানো তথ্য সম্পাদনা এবং আপডেট করা হয়, তখন ওয়েব ক্রলার বা সার্চ ইঞ্জিন বট সেখানে উপস্থিত হয় এবং নতুন তথ্য নিয়ে নেয়।
এমনকি যদি একটি ওয়েবসাইট দীর্ঘ সময়ের জন্য একটি নতুন পোস্ট আপলোড না করে বা যদি পুরানো পোস্টগুলি সম্পাদনা না করা হয় তবে সার্চ ইঞ্জিন ক্রলার এই ওয়েবসাইটটি পরিদর্শন করা বন্ধ করে না বরং এটি নিয়মিত পরিদর্শন করতে থাকে। এভাবেই সার্চ ইঞ্জিন বট প্রতি মিনিটে লক্ষ লক্ষ ওয়েবসাইট পরিদর্শন করে ইন্টারনেটের সমস্ত তথ্য সংগ্রহ করে।
ইনডেক্সিং
যেকোন সার্চ ইঞ্জিন ক্রলার বা রোবট পেজ ক্রল করে ইনডেক্স করে। আমি ইনডেক্স বোঝার জন্য একটি ছোট উদাহরণ দিই। ধরুন আপনার একটি মোবাইলের দোকান আছে। আপনার দোকানে শুধুমাত্র এক ধরনের ফোন পরিবর্তে, বিভিন্ন কোম্পানির ফোন বিক্রি করেন(যেমন Samsung, Xiaomi, App, ইত্যাদি)। এক্ষেত্রে সব ধরনের ফোন একে অপরের উপরে না রেখে ফোনের কোয়ালিটি এবং কোম্পানি অনুযায়ী আলাদাভাবে সাজিয়ে রাখেন। তারপর আপনি সহজেই গ্রাহকের প্রয়োজনীয়তা অনুযায়ী যেকোনো মোবাইল গ্রাহকদের প্রদর্শন করেন।
এই পৃথিবীতে যেমন অনেক ওয়েবসাইট বা ব্লগ রয়েছে, তেমনি প্রতিটি ওয়েবসাইটের মালিক বিভিন্ন বিষয় নিয়ে লেখেন। এখানেই সার্চ ইঞ্জিন বটগুলি তাদের ডাটাবেসের সমস্ত ওয়েবসাইটকে বিষয় অনুসারে সংগঠিত করে। কোন ব্লগটি তাদের ডাটাবেসের শীর্ষে রয়েছে তা নির্ভর করে ওয়েবসাইটের মানের উপর। মূলত, সার্চ ইঞ্জিনের এই প্রক্রিয়াটিকে ইনডেক্সিং বলা হয়। ইনডেক্স এর ভিতর অনেক বিষয় থাকে। যা এখন পুরোপুরি বর্ণনা করা সম্ভব নয়।
ফলাফল প্রদান
যখন আমরা Google সার্চ ইঞ্জিন বা অন্য কোন সার্চ ইঞ্জিনে একটি কীওয়ার্ড লিখে সার্চ করি, সার্চ ইঞ্জিন বট তার ডাটাবেস থেকে ইনডেক্স করা লক্ষ লক্ষ পোস্ট থেকে প্রাসঙ্গিক ফলাফলের অ্যালগরিদমের র্যাঙ্কিং ফ্যাক্টর বিবেচনা করে ফলাফল প্রদর্শন করে। এই তিনটি প্রক্রিয়া বজায় রাখার জন্য গুগলের হাজার হাজার কর্মী রয়েছে।
একটি সার্চ ইঞ্জিন স্পাইডার,রোবট এবং অন্যান্য প্রোগ্রাম ব্যবহার করে। এই প্রোগ্রামগুলো ওয়েবসাইট থেকে তথ্য সঞ্চয় করে এবং হাইপারলিঙ্ক ট্র্যাক করে। অন্যদিকে, সার্চ রোবট বিভিন্ন সাইট থেকে ডাটা এবং তথ্য খুঁজে বের করে এবং সার্চ ইঞ্জিনের ডাটাবেসে সংরক্ষণ করে। যখন কেউ সার্চ ইঞ্জিনে নির্দিষ্ট তথ্য অনুসন্ধান করে, তখন সার্চ ইঞ্জিন ডাটাবেস পরীক্ষা করে এবং সার্চ ইঞ্জিন ডাটাবেস থেকে ফলাফল প্রদর্শন করে।
কিভাবে একটি পোস্ট সার্চ রেজাল্টে আসে?
এটি একজন ব্লগার বা ওয়েব ডেভেলপারের জন্য খুবই গুরুত্বপূর্ণ। কারণ একটি পেজ ক্রল করার পর সেটি সার্চ ইঞ্জিনের হার্ড ড্রাইভে সংরক্ষণ করা হয়, তবে সেটি সার্চ ইঞ্জিনে প্রদর্শিত হবে নাকি স্থায়ীভাবে সংরক্ষণ করা হবে তা নির্ভর করে Index হওয়ার ওপর। যদি আপনার ব্লগের লিঙ্কটি Index করা হয়, আপনার আর্টিকেলটি সার্চ ইঞ্জিনে প্রকাশিত হবে। ইন্ডেক্সিং আপনার আর্টিকেল এর মানের উপর নির্ভর করে। যদি আপনার আর্টিকেলটি ভাল মানের এবং অনন্য হয় তবে এটি অবশ্যই ইন্ডেক্সিং হবে এবং আর্টিকেলটি সমস্ত সার্চ ইঞ্জিনে সবার উপরে রাঙ্ক করবে। আর যদি Index না হয় তাহলে Web Crawlers এটিকে তার মজুদ করা তথ্য হতে মুছে দেবে।
আরো পড়ুনঃ