বাংলা ভাষায় ডাটা সায়েন্স নিয়ে খুব বেশি হয়ত লেখা হয়নি। তাই আমি ডাটা সায়েন্সএর উপর একটি ব্লগ সিরিজ শুরু করতে যাচ্ছি। অনেক কেই আমি দেখেছি বিষয়টি নিয়ে ভয়পেতে কারন সঠিক ভাবে শুরুটা হয়ত করা হয়নি। গণিত এর সাথে এই বিষয় এর একটি সম্পর্কআছে যা অনেকের ভয় এর কারণ। কিন্তু এই বিষয়টা কে ব্রেকডাউন করলে দেখা যায় এর মূলেরয়েছে ইনটিউশন। আমাদের প্রতিদিন এর কাজেই এই বিষয়টি ব্যাবহার করে থাকি নিজেদেরঅজান্তে। সেটি আজ বর্ণনা করব আমার জীবনে ঘটে যাওয়া কিছু সত্য ঘটনার অবলম্বনে। 😀

আমি বর্তমান এ রকমারির সফটওয়্যার টিম এ আছি। এখানে ঘটে যাওয়া কিছু ঘটনা বর্ণনা করব। রকমারিতে যখন লিখিত পরীক্ষার জন্য আমার ডাক পড়ে তখন হঠাৎ আবিষ্কার করি রকমারির অফিস মতিঝিল এ যা হয়ত আবেদন করার সময় লক্ষ্য করা উচিত ছিল -_-। সমস্যাটা ছিল আমার বাসা নদ্দাতে এবং নদ্দা থেকে মতিঝিল ভালোরকম দূরত্বে অবস্থিত। যথারীতি মতিঝিল এ আমার কখনও যাওয়া হয়নি। বন্ধুদের কাছ থেকে একটি বাস এর খবর জানতে পারি যা উত্তরা থেকে নদ্দা হয়ে সরাসরি মতিঝিল এ যায়। ধরি বাস টির নাম নীল-ঢাকা :v। নীল ঢাকা এর সাহায্যে মতিঝিল এ গিয়ে ইন্টারভিউ এর নানাবিধ প্রক্রিয়া সম্পন্ন করে যোগ দেই রকমারির সফটওয়্যার টিম এ।

অফিস সময় ছিল সকাল ৯ টা থেকে এবং সকালে সময়মত যাওয়া খুবই জরুরি। তাই নীল ঢাকার বাস কাউন্টার এর মামা কে জিজ্ঞেস করি নদ্দা থেকে সকালে প্রথম বাস কখন ছাড়ে? কাউন্টার এর মামা উত্তরে বললেন সকাল ৭ টায় নদ্দা কাউন্টার এ থাকলেই বাস পাওয়া যাবে। এখন এই উক্তিটার পিছনে আমি পাঠকদের বলব একটু মনোযোগ দিতে। এখানে কাউন্টার মামা কিন্তু নিজের অজান্তে ডাটা সায়েন্স এর একটি সুন্দর প্রয়োগ করেছেন। সে তার অনেকদিন কাউন্টার এ থেকে বাস পর্যবেক্ষণ করার ফল হিসেবে আমার প্রশ্নের উত্তরটি দিয়েছেন। উত্তরা থেকে বাস যখন ই ছাড়ুক, নদ্দা তে প্রথম বাস ঠিক কখন আসে সেই সময়গুলি  তিনি পর্যবেক্ষণ করেছেন। হতে পারে সেই সময় টি সকাল ৬:৫০, হতে পারে সেই সময় টি ৭:১৫। কিন্তু তিনি এই ডাটা গুলো পর্যবেক্ষণ করে তার নিজের মত ক্যালকুলেশন করে একটি নির্দিষ্ট সময় আমাকে দিয়েছেন। এই জিনিসটাকেই ডাটা সায়েন্স এর ভাষায় বলে ক্লাসিফাই করা। এখানে প্রথম বাস আসার সময়টা ই ক্লাসিফাই করা হয়েছে।

এখানে একটি জিনিস লক্ষ্য করার মত। কাউন্টার মামার সঠিকভাবে ক্লাসিফাই করারজন্য কিন্তু অনেকদিনের ডাটা পেয়েছে। সে কিন্তু জানে তার কি বের করতে হবে এবং ওইডাটাগুলো দিয়ে শিখতে পেরেছে ক্লাসিফাই কিভাবে করতে হয়। যখন ডাটা থেকে কি বের করতেহবে সেটি জানা থাকে তখন সেগুলোকে বলে labelled data এবং সেই ডাটা পর্যবেক্ষণ করেসঠিক ভাবে ক্লাসিফাই করতে শিখতে পারার পদ্ধতি কে supervised learning বলে।

ঠিক একই ভাবে বাস এ কিছুদিন ভ্রমন করে আমিও বুঝতে পারি সকালে নদ্দা থেকে মতিঝিল এ যেতে আধা ঘণ্টা সময় লাগে কিন্তু মতিঝিল থেকে নদ্দা আসতে সময় লাগে ২ ঘণ্টা জ্যামজনিত কারনে। তাই বাস এ বিরক্ত হয়ে আমি ম্যাপ দেখি আর সময় গুনতে থাকি কখন বাড়ি পৌছাব। কিন্তু ম্যাপ দেখতে দেখতেই আমি একটা পর্যবেক্ষণ করি যে মতিঝিল থেকে সন্ধ্যায় নদ্দা যাওয়ার সময় বাসটি সেগুনবাগিচা হয়ে কাকরাইল যায় এবং সেখান থেকে যথারীতি রামপুরা হয়ে নদ্দা। কিন্তু কাকরাইল যাওয়ার একটি বিকল্প পথ আছে সরাসরি নটরডেম কলেজ হয়ে যা অনেক কম সময় নেয়। এখন আমি কাকরাইল খুব কম সময়ে গিয়ে যেকোনো বাস এ উঠে নদ্দা চলে যেতে পারি যা আমার অনেক সময় বাঁচিয়ে দেয়। পাঠক দের আবার বলব এখানে একটু মনোযোগ দিতে কারণ এখানে যে ঘটনাটি ঘটেছে তা ডাটা সায়েন্স এর আরেকটি মুখ্য জিনিসকে রেপ্রেসেন্ট করে। ম্যাপ পর্যবেক্ষণ করে কোন সুনির্দিষ্ট প্রশ্নের উত্তর দেওয়ার উদ্দেশ্য কিন্তু আমার ছিল না। কিন্তু তবুও ম্যাপ পর্যবেক্ষণ করে আমি একটি রিলেশন বের করি যা আমার মত অজ্ঞ ব্যাক্তির জন্য কাজে লেগেছে। এরকম যখন ডাটার মধে কি বের করতে হবে তা জানা থাকে না তখন তাকে unlabeled data বলে। আর এই unlabeled data থেকে বিভিন্ন রিলেশন বুঝার যে প্রচেষ্টা তাকেই unsupervised learning বলে।

কিছু টেকনিকাল টার্ম এর সাথে পরিচিত হই। প্রথম উদাহরণ এ যদি ফিরে যাই তাহলে দেখব প্রতিদিন প্রথম বাস এর আসার সময় টা হল ডাটা। বাস যেদিন থেকে চলা শুরু করেছে সেদিন থেকে আজ পর্যন্ত সব ডাটা গুলোকে বলে population. আমরা নিশ্চয়ই পুরো population বিবেচনা করব না। কারণ সেটি অনেক হিসাব আর সময় এর ব্যাপার। এই সমস্যা কে দূর করতেই population থেকে কিছুসংখ্যক ডাটা বাছাই করা হয় যেটি ধরা হয় পুরো population কে রেপ্রেসেন্ট করে। সেই বাছাইকৃত কিছুসংখ্যক ডাটা কে বলা হয় স্যাম্পল ডাটা। এবং স্যাম্পল ডাটা বাছাই করার পদ্ধতি কে sampling বলে। স্যাম্পল ডাটা বাছাই করার সময় খেয়াল রাখতে হবে ডাটা বাছাই করার সময় কোন বায়াস(bias) যাতে কাজ না করে, ডাটা বাছাই করতে হবে র‍্যানডম ভাবে। এর একটি উদাহরণ দেওয়া যায় এভাবে যে, ধরি এক বাসযাত্রী শুধু মাত্র শুক্র আর শনিবার যায় নীল ঢাকা তে। কিন্তু সেই দুইদিন বাস আবার দেরি করে ৮ টায় ছাড়ে। অবশ্যই সেই যাত্রীর ক্ষেত্রে বায়াস টা কাজ করবে এবং তাকে বাস ছাড়ার সময় জিজ্ঞেস করা হলে সে বলবে ৮ টা, যেটা কিন্তু পুরো population কে রেপ্রেসেন্ট করে না।

স্যাম্পল ডাটা বাছাই করার সময় আরেকটি জিনিস খেয়াল রাখতে হবে যে স্যাম্পল একতগুলো ডাটা আছে। এটা কে sample size বলে। sample size খুব বেশি ছোট অথবা বেশি বড় হলে কিছু সমস্যা হয়। sample size প্রয়োজন এর চেয়ে ছোট হলে classificationটি inaccurate হওয়ার সম্ভাবনা আছে। আর sample size বেশি বড় হলে হিসাবকরতে সমস্যা হয়। সেক্ষেত্রে sample size ঠিক রাখা টাও একটি জরুরি কাজ।

আজ এতটুকুই। পরবর্তীতে এই সিরিজ টি চালু করার আশা আছে। সবাইকে ধন্যবাদ।

Previous ArticleNext Article

This post has 3 Comments

3

Leave a Reply

Your email address will not be published. Required fields are marked *