সার্চ ইঞ্জিনের তথ্য সংগ্রহ করার ধাপসমূহ কী কী

সার্চ ইঞ্জিনের তথ্য সংগ্রহ করার ধাপসমূহ কী কী?

সার্চ ইঞ্জিনের তথ্য সংগ্রহ করার ধাপসমূহ কী কী?

সাধারণভাবে, একটি সার্চ ইঞ্জিন তিনটি ধাপে তথ্য সংগ্রহ করে। ক্রলিং, ইন্ডেক্সিং এবং ফলাফল প্রদান। আজকের আর্টিকেলে আমরা জানব গুগোল কীভাবে এই তথ্যগুলো তার শব্দ ভাণ্ডারে যোগ করে। তো বন্ধুরা চলুন জেনে নেই সার্চ ইঞ্জিনের তথ্য সংগ্রহ করার ধাপসমূহ গুলোঃ

ক্রলিং

প্রথম ধাপে, সার্চ ইঞ্জিন বিশ্বের প্রতিটি ওয়েবসাইটের তথ্য সংগ্রহ করতে তার ক্রলার বা বট  কে পাঠায়। দ্বিতীয় ধাপে, ওয়েব ক্রলার বা বট সংশ্লিষ্ট ওয়েবসাইটের কন্টেন্ট বা পোস্ট ক্রল করে। একটি ওয়েবসাইট পোস্টে থাকা সমস্ত ধরণের টেক্সট, ছবি এবং ভিডিওগুলি ক্রলিংয়ের মাধ্যমে ডাটাবেসে সূচীবদ্ধ হয়।

প্রতিটি সার্চ ইঞ্জিনে কোন না কোন Web Crawlers সফটওয়্যার থাকে। সার্চ ইঞ্জিনের ভাষায় তাদের বলা হয় “রোবট বা বট”। এই ওয়েব ক্রলাররা ইন্টারনেটে প্রতিটি ওয়েবসাইটের প্রতিটি লিঙ্ক পরিদর্শন করে। প্রতিবার একটি পেজ পরিদর্শন করা হয়, এটি সেই পেজের নতুন লিঙ্কগুলি সংগ্রহ করে এবং ডেড লিঙ্ক সার্ভার থেকে মুছে দেয়। এইভাবে প্রতিটি  পেজ ক্রমাগত ক্রল করা হয় এবং তাদের সার্চ ইঞ্জিন সার্ভারে নতুন তথ্য সংরক্ষণ করা হয়।

সাধারণত প্রতিটি সার্চ ইঞ্জিন সব লাইভ ওয়েবসাইট থেকে যতটা সম্ভব তথ্য সংগ্রহ করতে একটি স্পাইডার বা ওয়েব ক্রলার পাঠায়। যখনই একটি ওয়েবসাইটে নতুন তথ্য যোগ করা হয় বা পুরানো তথ্য সম্পাদনা এবং আপডেট করা হয়, তখন ওয়েব ক্রলার বা সার্চ ইঞ্জিন বট সেখানে উপস্থিত হয় এবং নতুন তথ্য নিয়ে নেয়।

এমনকি যদি একটি ওয়েবসাইট দীর্ঘ সময়ের জন্য একটি নতুন পোস্ট আপলোড না করে বা যদি পুরানো পোস্টগুলি সম্পাদনা না করা হয় তবে সার্চ ইঞ্জিন ক্রলার এই ওয়েবসাইটটি পরিদর্শন করা বন্ধ করে না বরং এটি নিয়মিত পরিদর্শন করতে থাকে। এভাবেই সার্চ ইঞ্জিন বট প্রতি মিনিটে লক্ষ লক্ষ ওয়েবসাইট পরিদর্শন করে ইন্টারনেটের সমস্ত তথ্য সংগ্রহ করে।

ইনডেক্সিং

যেকোন সার্চ ইঞ্জিন ক্রলার বা রোবট পেজ ক্রল করে ইনডেক্স করে। আমি ইনডেক্স বোঝার জন্য একটি ছোট উদাহরণ দিই। ধরুন আপনার একটি মোবাইলের দোকান আছে। আপনার দোকানে শুধুমাত্র এক ধরনের ফোন পরিবর্তে, বিভিন্ন কোম্পানির ফোন বিক্রি করেন(যেমন Samsung, Xiaomi, App, ইত্যাদি)। এক্ষেত্রে সব ধরনের ফোন একে অপরের উপরে না রেখে ফোনের কোয়ালিটি এবং কোম্পানি অনুযায়ী আলাদাভাবে সাজিয়ে রাখেন। তারপর আপনি সহজেই গ্রাহকের প্রয়োজনীয়তা অনুযায়ী যেকোনো মোবাইল গ্রাহকদের প্রদর্শন করেন।

এই পৃথিবীতে যেমন অনেক ওয়েবসাইট বা ব্লগ রয়েছে, তেমনি প্রতিটি ওয়েবসাইটের মালিক বিভিন্ন বিষয় নিয়ে লেখেন। এখানেই সার্চ ইঞ্জিন বটগুলি তাদের ডাটাবেসের সমস্ত ওয়েবসাইটকে বিষয় অনুসারে সংগঠিত করে। কোন ব্লগটি তাদের ডাটাবেসের শীর্ষে রয়েছে তা নির্ভর করে ওয়েবসাইটের মানের উপর। মূলত, সার্চ ইঞ্জিনের এই প্রক্রিয়াটিকে ইনডেক্সিং বলা হয়। ইনডেক্স এর  ভিতর অনেক বিষয় থাকে। যা এখন পুরোপুরি বর্ণনা করা সম্ভব নয়।

ফলাফল প্রদান

যখন আমরা Google সার্চ ইঞ্জিন বা অন্য কোন সার্চ ইঞ্জিনে একটি কীওয়ার্ড লিখে সার্চ করি, সার্চ ইঞ্জিন বট তার ডাটাবেস থেকে ইনডেক্স করা লক্ষ লক্ষ পোস্ট থেকে প্রাসঙ্গিক ফলাফলের অ্যালগরিদমের র‌্যাঙ্কিং ফ্যাক্টর বিবেচনা করে ফলাফল প্রদর্শন করে। এই তিনটি প্রক্রিয়া বজায় রাখার জন্য গুগলের হাজার হাজার কর্মী রয়েছে।

একটি সার্চ ইঞ্জিন স্পাইডার,রোবট এবং অন্যান্য প্রোগ্রাম ব্যবহার করে। এই প্রোগ্রামগুলো ওয়েবসাইট থেকে তথ্য সঞ্চয় করে এবং হাইপারলিঙ্ক ট্র্যাক করে। অন্যদিকে, সার্চ রোবট বিভিন্ন সাইট থেকে ডাটা এবং তথ্য খুঁজে বের করে এবং সার্চ ইঞ্জিনের ডাটাবেসে সংরক্ষণ করে। যখন কেউ সার্চ ইঞ্জিনে নির্দিষ্ট তথ্য অনুসন্ধান করে, তখন সার্চ ইঞ্জিন ডাটাবেস পরীক্ষা করে এবং সার্চ ইঞ্জিন ডাটাবেস থেকে ফলাফল প্রদর্শন করে।

কিভাবে একটি পোস্ট সার্চ রেজাল্টে আসে?

এটি একজন ব্লগার বা ওয়েব ডেভেলপারের জন্য খুবই গুরুত্বপূর্ণ। কারণ একটি পেজ ক্রল করার পর সেটি সার্চ ইঞ্জিনের হার্ড ড্রাইভে সংরক্ষণ করা হয়, তবে সেটি সার্চ ইঞ্জিনে প্রদর্শিত হবে নাকি স্থায়ীভাবে সংরক্ষণ করা হবে তা নির্ভর করে Index হওয়ার ওপর। যদি আপনার ব্লগের লিঙ্কটি Index করা হয়, আপনার আর্টিকেলটি সার্চ ইঞ্জিনে প্রকাশিত হবে। ইন্ডেক্সিং আপনার আর্টিকেল এর মানের উপর নির্ভর করে। যদি আপনার আর্টিকেলটি ভাল মানের এবং অনন্য হয় তবে এটি অবশ্যই ইন্ডেক্সিং হবে এবং আর্টিকেলটি সমস্ত সার্চ ইঞ্জিনে সবার উপরে রাঙ্ক করবে। আর যদি Index না হয় তাহলে Web Crawlers এটিকে তার মজুদ করা তথ্য হতে মুছে দেবে।


আরো পড়ুনঃ

লগো ডিজাইন করে অনলাইনে আয় করার উপায় কী?

লোকাল এসইও কি?

কিভাবে ইউটিউব মার্কেটিং করবেন?

Leave a Comment

Your email address will not be published. Required fields are marked *