শুক্রবার, ১০ ডিসেম্বর, ২০১০

গুগল ডক্সে ওসিআর সুবিধা

ছবি বা পিডিএফ ফাইল থেকে টেক্সট বা লেখাকে আলদা করা যায় OCR (Optical character recognition) সফটওয়্যার দ্বারা। কিন্তু কম্পিউটারে যদি ওসিআর সফটওয়্যার না থাকে তাহলে অনলাইন থেকে ওসিআর এ কাজটুক করা যায়। গুগল ডক্সে এরকম সুবিধা রয়েছে।
এজন্য গুগলে লগইন অবস্থায় https://docs.google.com সাইটে গিয়ে Upload বাটনে ক্লিক করুন। এখন Select files to upload লিংকে ক্লিক করে পিডিএফ বা ইমেজ ফাইল নির্বাচন করুন। এবার Convert text from PDF or image files to Google Docs documents চেক বক্স চেক করে Start Upload বাটনে ক্লিক করুন। আপলোড শেষ হলে আপলোডকৃত ফাইলের নামের লিংকে ক্লিক করলে নতুৃন পেজে উক্ত ইমেজ/পিডিএফ এবং নিচে ওসিআরকৃত টেক্সট আসবে।

বাংলা ওসিআর

 সাধারণ স্ক্যান করা ইমেজকে সম্পাদনযোগ্য টেক্সটে রূপান্তর করার জন্য ওসিআর সফটওয়্যারের প্রয়োজন হয়। ওমনিপেজ হচ্ছে ওসিআরগুলোর মধ্যে সবচেয়ে জনপ্রিয়। ওমনিপেজে অনেকগুলো ভাষা সমর্থন করলেও এতে বাংলা ভাষা সমর্থন করে না। ফলে বাংলার জন্য একটা শুন্যস্থান ছিলোই। সমপ্রতি সেন্টার ফর রিসার্চ অন বাংলা লেংগুয়েজ প্রসেসিং (সিআরবিএলপি) বাংলাওসিআর (BanglaOCR) নামে নতুন ওসিআর অবমুক্ত করেছে। নতুন এই সংস্করণের ওসিআরটি উইন্ডোজের পাশাপাশি লিনাক্স প্লাটফর্মেও চলবে। সফটওয়্যারটির জন্য আপনার কম্পিউটারে ডটনেট ২.০ ফ্রেম নেটওয়ার্ক, ভিজুয়্যাল সি++ ২০০৫ এবং জাভা রান টাইম পরিবেশ। জিএসইউ (জেনারেল পাবলিক লাইসেন্স ২) এর আওতায়ধীন এই সফটওয়্যাটি সম্পূর্ণ বিনামূল্যে পাওয়া যাবে। ৯.০ মেগাবাইটের ০.৬ আলফা সংস্করণের এই সফটওয়্যারটি http://banglaocr.googlecode.com থেকে ডাউনলোড করতে পারেন। বিস্তারতি জানতে পারবে http://crblpocr.blogspot.com সাইট থেকে।

অনলাইনে ইমেজকে টেক্সটে রূপান্তর করা

বই থেকে বা অন্য কোন উৎস থেকে স্ক্যান করা ইমেজ বা স্কিনশট ইমেজ ফাইলকে সম্পাদন উপযোগী টেক্সট ফাইলে রূপান্তর করা যায় OCR (Optical Character Recognition) সফটওয়্যার দ্বারা। কিন্তু সফটওয়্যার ছাড়াও গুগল ডক্সের মাধ্যমে অনলাইনে এধরনের ইমেইজ ফাইলকে সম্পাদন উপযোগী টেক্সট ফাইলে রূপান্তর করে গুগল ডক্সে ব্যবহার করা যায়। এজন্য http://googlecodesamples.com/docs/php/ocr.php সাইটে গিয়ে সাইন ইন করে Grant access বাটনে ক্লিক করুন। এবার Browse বাটনে ক্লিক করে ফাইলটি নির্বাচন করে Start OCR import বাটনে ক্লিক করুন, তাহলে কিছুক্ষণের মধ্যে এটি গুগল ডক্সে সম্পাদন উপযোগী হয়ে আসবে। এখান থেকে অনলাইনে সেভ করা বা হার্ডডিক্সে সেভ করা যাবে বিভিন্ন ফরম্যাটে। ইমেজ ফাইল হিসাবে সর্বোচ্চ ১০ মেগাবাইটের এবং ২৫ মেগাপিক্সেলের .jpg, .png, বা .gif ফরম্যাটের ফাইল ব্যবহার করা যাবে। তবে কম রেজুলেশনের ফাইল আপলোড করলে টেক্সটে রূপান্তর নাও হতে পারে, সেক্ষেত্রে প্রয়োজনে ইমেজ ফাইলটির রেজুলেশন বাড়িয়ে নেওয়া উত্তম।

 

কোন মন্তব্য নেই:

একটি মন্তব্য পোস্ট করুন

Twitter Bird Gadget