博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
lucene以.gen ,.si为后缀名的文件。
阅读量:4189 次
发布时间:2019-05-26

本文共 1959 字,大约阅读时间需要 6 分钟。

介绍了Lucene里面所有的文件格式以及的作用,那么接下来的一系列文章里,将逐个细说,今天我们先来看下lucene索引文件格式里面的老大段文件,以.gen ,.si为后缀名的文件。
.si是记录段文件的元数据的信息,主要有如下的几个属性
数据类型 描述
Header 记录一个头部编码,包含一个字符串去校验文件和版本号,它可以被解析和验证通过一个特定的方法,CodecHeader --> Magic,CodecName,Version Magic ->Uint32(32位无符号整数写成四个字节,高位字节),标识开始的头部CodecName->String 通过这个字符串校验文件Version ->Uint32(32位无符号整数写成四个字节,高位字节),记录文件的版本号
SegSize Int32
SegVersion String
Diagnostics, Attributes Map<String,String>
Files Set<String>
IsCompoundFile Int8
1,SegVersion段的版本号,是段文件创建时的编码版本。
2,SegSize是指包含在这个段文件里文档数(Document)的总数
3,IsCompoundFile记录着这个段在写入时,是否被作为一个复合索引文件,
如果是-1的话,则为正常的段索引文件,为1的话就是复合索引文件
4,Checksum,检验和,包含所有段文件中的所有字节的CRC32 checksum,
通常用于验证索引文件的完整性。
5,Diagnostics,诊断映射,它会私下被IndexWriter写入记录,作为一个Debug时的一个辅助工具,每个段文件都有一个对应的诊断映射,它包含一些元数据,包括一些lucene当前的版本号,操作系统,Java版本,以及它是怎么被创建的,是合并(merge),还是被刷新(flush),还是被多个索引合并(addindex)
6,Attributes,codec-private属性的键-值映射。
7,对于这个段来说,它被组成由多个文件
SegmentInfos这个类,几乎涵盖了段文件里所有的详细信息,提供了大量的方法用于在文件系统上操作段文件,segments_N往往是最活跃的文件,因为最新的段文件,常常面临着频繁的添加操作,这个文件包含了每个段的名字和细节编解码器和一些删除的元数据信息。
另外一个文件segments.gen,这个文件包含了以_N开头的在当前的段文件的记录,
这个文件仅仅作为一个备份,以防Directy不能准确的定位所写入的当前段文件是那一些以_N开头的,通常仅包含一个int32位的header信息。
文件:
segments.gen: GenHeader, Generation, Generation
segments_N: Header, Version, NameCounter, SegCount, <SegName, SegCodec, DelGen, DeletionCount, FieldInfosGen, UpdatesFiles>SegCount, CommitUserData, Checksum
数据类型:
Header---->CodecHeader
GenHeader, NameCounter, SegCount, DeletionCount --> Int32
Generation, Version, DelGen, Checksum, FieldInfosGen --> Int64
SegName, SegCodec --> String
CommitUserData --> Map<String,String>
UpdatesFiles --> Set<String>
介绍:
Version数量,记录着这个索引所有被添加或删除文档的个数。
NameCounter ,通常用于生成新的段文件名称
SegName ,段名称,通常被用于所有组成段文件的前缀名称
DelGen ,记录着所有段删除文件的数量,如果这个数是-1,则意味
着没有删除任何记录,除此之外,任何一个大于0的数字,则意味着
索引已经通过LiveDocsFormat进行了删除存储
DeletionCount,记录某一个段删除文档的数量
Checksum,校验和,上文有描述
SegCodec,是段文件的编码和解码后的名称
CommitUserData,用来提交一个用户提供不透明的Map结构的数据
FieldInfosGen ,域信息文件,记录段更新的次数,-1无更新,大于0的数字
则代表这更新的次数。
UpdatesFiles,存储在段过被更新过的文件。

转载地址:http://egjoi.baihongyu.com/

你可能感兴趣的文章
放弃完美的需求管理
查看>>
基于DSL的组织机构模型 之一:预告
查看>>
组织机构DSL之二:参考资料(ruby hacking guide )的阅读笔记
查看>>
ddd quickly 中文版译者序
查看>>
回憶過去,展望未來
查看>>
LINQ 首部曲 : LINQ To Object Part 1
查看>>
Visual Studio 2008 VPC Beta 2 版本 將於今日過期.
查看>>
ASP.NET AJAX 新書完稿.
查看>>
Silverlight 完全中文解決方案
查看>>
精彩的瀏覽器戰爭的序幕已拉開
查看>>
Silverlight 與 ASP.NET 的完美結合法 - 控件篇
查看>>
Silverlight DataBindings for 1.1 (Managed code)
查看>>
另類的Silverlight中文解法
查看>>
我的年度計劃-流產表...........
查看>>
Vista 與輸入法程式介面
查看>>
複合式 LINQ.
查看>>
瀏覽器平台上的戰爭,Silverlight,Flash,Flex,JavaFX
查看>>
WPF UI介面的革新
查看>>
3月14日相约CSDN聊天室: ASP.NET 想说爱你并不件容易的事?
查看>>
2007年后,即将脱离单身
查看>>