双层PDF格式文件是一种具有多层结构的PDF格式文件,是PDF文件衍生的一种文件,其特点是:文件既可以是文本型的(比如由word生成的文件),也可以是图像型的,既可以100%保留原始版面效果,又便于建立索引数据库,进行科学的管理。
很多时候我们发现,明明PDF文件是扫描版的,却可以复制其中的文字(偶尔会有错字),这是怎么回事呢?原来这是PDF制作的一种技术,叫“双层PDF”。
双层PDF格式文件是一种具有多层结构的PDF格式文件,是PDF文件衍生的一种文件,文件既可以是文本型的(比如由word生成的文件),也可以是图像型的(比如由扫描生成的文件,包含图像层),且其位置上下一一对应。制作过程中,资料通过扫描仪快速录入后,经过去污、纠偏和OCR识别,上层是原始图像,下层是识别结果,然后可以直接生成可以检索的PDF文件。这样既可以100%保留原始版面效果,又便于建立索引数据库,进行科学的管理。