优享资讯 | πFlow V1.8 火爆来袭！PDF、DOCX、TIFF 等轻松转化，大模型训练从此“飙车”前行！

开源中国-最新资讯 ( ) • 2024-04-22 17:04

πFlow V1.8 火爆来袭！PDF、DOCX、TIFF 等轻松转化，大模型训练从此“飙车”前行！

大数据流水线系统πFlow V1.8版本正式发布，本次更新包含以下内容：

新增特性：
- 新增对非结构化数据的解析能力。
已有功能优化：
- Server端H2数据库；
- 自定义Python算子；
- 模板功能；
- 流水线。

一、πFlow新增对非结构化数据的解析能力

πFlow新增非结构化解析组件以支持用户从原始非结构化文档中提取结构化内容。这些组件将文档分解为 Title、NarrativeText 和 ListItem 等元素，使用户能够决定要为其特定应用程序保留哪些内容。例如，如果要训练摘要模型，则可能只对 NarrativeText 感兴趣。使用该功能需将Server端配置文件中的unstructured.parse属性设置为“true”。

下表展示了πFlow当前支持的非结构化解析组件。

DocxParser

DocxParser是用来解析.docx的组件，参数说明如下：

组件样例配置如下：

HtmlParser

HtmlParser是用来解析.html或.htm的组件，参数说明如下：

组件样例配置如下：

ImageParser

ImageParser是用来解析图片的组件，支持解析.png/.jpg/.jpeg/.tiff/.bmp/.heic，参数说明如下：

组件样例配置如下：

PdfParser

PdfParser是用来解析.pdf的组件，其中strategy参数用来控制解析PDF的策略，可用的策略有：“auto”、“hi_res”、“ocr_only”和“fast”。

“auto”将根据文档特征和功能属性选择解析策略。如果PDF中含有可提取的文本，“auto”将选择“fast”，否则选择“ocr_only”。“auto”是默认策略。
“hi_res”策略将使用detectron2识别文档的布局。“hi_res”的优点是它使用文档布局来获得关于文档元素的附加信息。如果您的用例对文档元素的正确分类高度敏感，我们建议使用此策略。此外，请注意该策略会耗费较长时间。
“ocr_only”策略通过Tesseract提取文档。目前，“hi_res”难以为具有多列的文档排序元素。如果您的文档有多个列，但没有可提取的文本，我们建议使用“ocr_only”策略。如果Tesseract不可用并且文档具有可提取的文本，“ocr_only”会回落到“fast”。
“fast”策略使用pdfminer提取文本。如果PDF文本不可提取，“fast”会选择"ocr_only"。我们建议在PDF具有可提取文本的大多数情况下使用“fast”策略。