(19)中华人民共和国国家知识产权局
(12)发明专利申请
(21)申请号 CN201010136399.8 (22)申请日 2010.03.25
(71)申请人 深圳市万兴软件有限公司
地址 518057 广东省深圳市南山区科技南十路西高新南一道北TCL大厦A座9楼北侧
(10)申请公布号 CN101876967A
(43)申请公布日 2010.11.03
A901室
(72)发明人 晏检平
(74)专利代理机构 深圳市顺天达专利商标代理有限公司
代理人 郭伟刚
(51)Int.CI
G06F17/22; G06F17/24;
权利要求说明书 说明书 幅图
(54)发明名称
一种PDF文本段落生成的方法
(57)摘要
本发明涉及一种PDF文本段落生成的方
法,该方法包括:A.识别并提取PDF文本的文字块;B.剔除不同层中重复的文字块,并且确定文本行,所确定的文本行组成文本行集合;C.将文本行集合进行水平方向划分,得到一个或多个第一文本;然后对第一文本集合中的每个第一文本
分别进行垂直方向划分,分别得到一个或多个第二文本,提取一个或多个第二文本之间的空白区域以组成空白区域集合;D.合并第一文本集合中两相邻的第一文本,以得到文本排版行;E.划分合并后的文本排版行,以形成文本排版列和文本段落。实施本发明的技术方案,经过该方法处理过的文本结构易生成RTF格式,效果好,且可编辑度高;另外,该方法是自动排版,无需人工干预。
法律状态
法律状态公告日
法律状态信息
2010-11-03 公开
2010-12-15 实质审查的生效 2012-05-02 授权
2013-06-05 专利权人的姓名或者名称、地址的变更
2017-05-24
专利权人的姓名或者名称、地址的变更
法律状态
公开
实质审查的生效 授权
专利权人的姓名或者名称、地址的变更
专利权人的姓名或者名称、地址的变更
权利要求说明书
一种PDF文本段落生成的方法的权利要求说明书内容是....请下载后查看
说明书
一种PDF文本段落生成的方法的说明书内容是....请下载后查看