همانطور که در مقالهی نحوه کار سامانههای مدیریت اسناد اشاره کردیم، اولین قدمی که این سیستمها برمیدارند، اسکن و خواندن اسناد کاغذی و پرینتشده است. نسخهی تصویری این اسناد برای اینکه بتوانند در چرخهی کار قرار بگیرند و قابلجستجو و ویرایش باشند، کافی نبوده و باید به نسخههای دیجیتال تبدیل شوند.
یک راه این است که اسناد کاغذی یا نسخههای تصویری آنها را در اختیار یک یا چند تایپیست قرار دهید تا با صرف انرژی، زمان و هزینهی زیاد برای شما تبدیل به نسخههای دیجیتالی و قابلویرایش مثل Ms-Word کنند؛ اما راه بسیار بهتر، سریعتر و بهصرفهتری هم هست؛ استفاده از فناوری OCR.
OCR چیست؟
پیش از همه بیایید ببینیم OCR مخفف چیست؟ Optical Character Recognition که معادل فارسی آن طبق معمول اصل کلام را نمیرساند؛ اما به هر حال برخی آن را نویسهخوان نوری ترجمه کردهاند. این فناوری، حروف متنهای تصویری یا پرینتشده را شناسایی کرده و در قالب دادههای دیجیتال ارائه میدهد.
عملکرد کلی فناوری OCR به این صورت است که ابتدا متن یک سند تصویری را بررسی کرده و بعد از شناسایی کاراکترها، آنها را به کدهایی جهت پردازش تبدیل میکند. در سامانهی OCR میتوان از هوش مصنوعی (AI) برای تشخیص زبان یا انواع قلمها با دقت بسیار بالا بهره برد.
یکی از مهمترین کاربردهای OCR در سیستمهای DMS است
همانطور که در ابتدای این مقاله اشاره کردیم، یک OCR هوشمند و دقیق میتواند سامانه مدیریت اسناد را بسیار چابک ساخته و بازدهی آن را تا حد زیادی بالا ببرد. زمانی که تصمیم میگیرید برای سازمان یا کسبوکار خود سیستم DMS راهاندازی کنید، با انبوهی از اسناد کاغذی مواجه هستید که چه برای بایگانی و چه قرارگرفتن در فرآیندهای کاری باید به اسناد دیجیتال و قابلویرایش و جستجو تبدیل شوند. علاوه بر این، چنین اسنادی هر روزه به سازمان شما اضافه میشوند و نیاز است که در سامانه مدیریت اسناد درج شوند. حالا مطمئناً به اهمیت وجود OCR پی بردهاید.
داکتیو؛ یک سامانه مدیریت اسناد که به OCR فارسی مجهز است
یکی از ویژگیهای متمایز سیستم DMS داکتیو، استفاده از فناوری OCR فارسی است که توسط تیم داکتیو متشکل از دانشجویان نخبه دانشگاه شریف طراحی و تولید شده است. این امتیاز یکی از دلایلی است که باعث شده داکتیو بهعنوان محصولی دانشبنیان ثبت شود.
ویژگیهای کلی فناوری OCR فارسی که در داکتیو استفاده شده، عبارتاند از:
- تبدیل تصویر نوشتاری به متن با زبان فارسی یا زبان لاتین
- دقت تشخیص 95درصد روی صفحات چاپی معمولی
- تشخیص بیش از صد فونت فارسی
- تشخیص اعداد و علائم نگارشی
- اصلاح چرخش صفحه
- اصلاح برخی از نویزهای صفحه
- دریافت فایل ورودی تصویر در قالبهای JPG, PNG, TIFF, PDF, BMP
- تبدیل به فایل خروجی متنی در قالبهای TXT
- امکان افزودن کلمات جدید به بانک لغات
- امکان تشخیص محتویات جدول
امتیازهای فناوری OCR فارسی استفادهشده در داکتیو
علاوه بر ویژگیهای کلی و عملکردی که در قسمت قبل به آنها پرداختیم، فناوری OCR بهکاررفته در داکتیو دارای ویژگیهای قابلتوجهی است که آن را از سایرین متمایز ساخته و در کنار سایر امکاناتی که در سامانه مدیریت اسناد داکتیو فراهم شده، مجموعهای کامل را در اختیار کاربران قرار میدهد. بیایید نگاهی داشته باشیم به این ویژگیهای متمایز:
هوش مصنوعی یادگیرنده
از خصوصیات بارز این فناوری OCR آن است که توسط ماشین لرنینگ توسعه یافته؛ یعنی وقتی در معرض حجم زیادی از نمونههای تصویری قرار میگیرد، نحوه تشخیص آنها را یاد گرفته و هرچه این نوشتهها سختتر باشند، دقت OCR بالاتر میرود.
پشتیبانی از صد فونت فارسی
این OCR در حال حاضر بیش از 100 فونت فارسی را میتواند تشخیص دهد و با کمک هوش یادگیرندهی خود محدودیتی در تشخیص سایر قلمهای فارسی عادی نیز نخواهد داشت.
دقت و کیفیت بالا
در صورت بارگذاری فایلهای ورودی استاندارد، این فناوری میتواند با دقت 95درصد متن اسناد را شناسایی کرده و به دادههای قابلپردازش تبدیل کند.
قابلیت OCR منطقهای
قابلیت OCR منطقهای، یکی از امکاناتی است که به این سیستم آموزش داده شده تا فقط اطلاعات بخشی از سند را بخواند که موردنیاز است و در نهایت به بخش دیگر سیستم یعنی فراداده منتقل کند.
تشخیص هویت اسناد
پردازش تصاویر، تشخیص هویت آنها و قراردادن در دستهبندی مربوطه از دیگر ویژگیهای این OCR است؛ برای مثال این قابلیت را دارد که بفهمد سند بارگذاریشده شناسنامه است.
موضوع دستهبندی اسناد در جریان مدیریت محتوا از اهمیت بالایی برخوردار است؛ بهخصوص در سازمانهای بزرگی که تعداد و انواع اسناد زیاد است. این طبقهبندی خودکار و دور از خطاهای انسانی، سبب میشود جستجوی اسناد آسانتر شده و احتمال گمشدن آنها بهشدت پایین بیاید.