缅甸联邦共和国,旧称缅甸,是东南亚的一个国家。 1962年至2010年,缅甸由政变后上台的军 *** 统治。 中国是近五年才开始对外开放,与其他国家建立了贸易和文化联系。 。
缅甸语由多种方言组成,但都共享一个核心字母表,主要用于正式文本和印刷媒体。 它有33个辅音和12个助字。 地方方言也可能使用其他字符。 完整列表大约是核心字母表大小的三倍。 幸运的是,我们的工作是识别使用至少 10 磅大小的流行缅甸文 3 字体编写的标准缅甸文文本。 文本图像可以是灰度、黑白或彩色,分辨率至少为 10 点。 以下是典型的缅甸语文本示例。 :
使用 ABBYY OCR 识别技术在计算机上读取缅甸文
在项目初期,我们必须实现OCR准确率75%,更低目标准确率达到94%。
缅甸文字就是所谓的缅甸文字,其中每个辅音还传达一个“默认”元音,其他元音使用辅音上方、下方、之前、之后的特殊字符和变音符号,甚至辅音周围的变音符号来转录。
这些字母大多由半圆形组成,因为过去文字是写在棕榈叶上,直切很容易损坏。
缅语是声调语言,有高、低、咯吱三种主声调,以及耳声和平声两种次声调。
由于声调也是以书面形式转录的,因此缅甸文字实际上有两个可区分的符号,它们可以放置在主要字母的上方、下方或同时位于主字母的上方和下方。 这两个级联的可区分系统给 OCR 软件带来了重大挑战,但这还不是全部。
为了使事情变得更复杂,一些字母组合可以融合在一起形成新的字符。
用大多数传统术语来说,光学字符识别是正确的。 当 OCR 软件收到图像文件时,它会使用 OCR 技术执行一些初步处理,将图像转换为黑白文本并纠正可见失真。 然后,它会检测包含不同类型文本(标题、正文、脚注)、照片和表格区域的文件,然后将文本块解析为行、行到单词、单词到字母。 单个字母识别完成后,文本将从下到上重新组织。 缅甸文本的图像处理和块检测与大多数其他语言相同。 ,但是检测文本行是一件棘手的事情。
由于变音符号的丰富性,教计算机识别短行文本非常困难。 这就是为什么我们的算法使用许多特征来表示文本行。 这些特征之一是所有主要角色都位于其上的假想基线。 ,计算机需要知道在哪里绘制基线,以便生成关于各个角色的合理假设。
计算机使用统计数据来检测基本文本行。 要收集必要的数据,请观察由组成字母的黑点生成的直方图上的峰值。 在欧洲字母的直方图上,有三个清晰可见的峰值对应于基线和小写字母。 的高度:
然而,在缅甸语中,文本行正常宽度之外的众多变音符号导致直方图中出现额外的统计显着峰值,因此,我们最初针对欧洲文字的算法无法正确识别缅甸语文本。 线路的重要参数。
在下图中,程序正确检测到前两行,但未检测到第三行:
我们必须对文本行检测算法进行一些调整,以使其也适用于缅甸语文本。
检测到文本行后,我们开始寻找单词和字母之间的间隙。 这次,我们使用水平直方图,假设大间隙是单词之间的间隙,小间隙理解为字母之间的间隙。 检测缅甸语文本中的间隙几乎没有问题,这与泰语中几乎没有间隙不同。 (我们的 OCR 技术可以识别泰语文本和多达 200 种其他语言)
将文本行分成更小的片段后,我们尝试将片段分割成单个字符,再次观察直方图上的波峰和波谷,波谷对应于字母之间可能的间隙,一些间隙可以高度确定地检测到,而另一些则可以检测到。需要通过各种启发式方法进行验证。
下图显示了英语单词的直方图:
缅甸文中的大量半圆形字符会产生大量“假”峰值和低估,使得检测间隙变得更加困难,但直方图方法同样适用于缅甸文。
现在我们可以尝试识别单个字符,准确地说是字母,字母是字符的图形表示,但它不是一一对应的。 在欧洲文本中,一个字母可以对应多个字符(例如,大写“C”和小写“c”属于同一个字母),并且一个字符可以由多个字母来传达(例如,字母“a”出现在不同的字符中)。可以用字体中的不同字母表示)。
没有标准的字母列表,因此我们手动编译它们,指定每个字母的所有可能的字符,然后在生成候选词时将字母翻译为字符。
正如我们之前提到的,缅甸文字中有大量可区分的字符,其中许多可以与其主要字母融合以形成新字符:
如果一个变音符号与其字母分离,我们首先识别该字母,然后识别变音符号,最后结合识别结果得到新的字母。 如果一个变音符号和它的字母构成一个不可分割的整体,我们就会试图将它作为一个整体来识别。
融合字符在缅甸语书写系统中非常常见,我们必须升级技术才能识别 3,500 个新字母,这远远多于我们通常添加新语言时所做的工作。
字母被识别后,必须将它们翻译成字符,然后形成单词。 对于欧洲语言来说这个过程很简单,只需一一识别字符然后翻译即可,但是对于缅甸融合字符,则需要特殊处理。
翻译字符有一个特定的正确顺序,缅甸文字母必须通过键盘输入才能连接,某些字符必须在所有其他字符输入之后输入,以便音节可以在开头分开放置它们在正确的位置。
例如:在文本编辑器中键入以下单词:
用户必须按以下顺序键入字符:
我们已将特殊的后校正模块纳入我们的技术中,以确保生成的单词遵循这些打字规则。 识别完所有文本后,模块再次读取识别的文本并检查字符顺序是否正确。 缅甸语是一种结构非常好的语言。 该语言有足够的正式规则来支持这些检查。
我们花了4个月的时间完成了这个项目,最终的识别准确率高达97%(客户要求至少94%)。 将来我们应该能够识别更多的缅甸字体。
未经允许不得转载! 作者:admin,转载或复制请以超链接形式并注明出处天心神途传奇手游发布网。
原文地址:《如何使用ABBYY 如何使用ABBYY FineReader》发布于:2024-02-13





还没有评论,来说两句吧...