Solr詞匯表

2018-01-19 14:09 更新

Solr詞匯表

本節(jié)將介紹Solr的常用術(shù)語。

Solr術(shù)語

在可能的情況下,術(shù)語與Solr參考指南的相關(guān)部分相關(guān)聯(lián),以獲取更多信息。

  • 原型更新(Atomic updates)

    一種僅更新文檔的一個(gè)或多個(gè)字段的方法,而不是重新索引整個(gè)文檔。

  • 布爾運(yùn)算符(Boolean operators)

    這些控件通過使用AND、OR和NOT等運(yùn)算符來控制查詢中關(guān)鍵字的包含或排除。

  • 集群(Cluster)

    在Solr中,一個(gè)集群是一組Solr節(jié)點(diǎn),通過ZooKeeper彼此協(xié)調(diào)運(yùn)行,并作為一個(gè)單元進(jìn)行管理。一個(gè)集群可能包含許多集合。參見SolrCloud。

  • 集合(Collection)

    在Solr中,使用單個(gè)配置和Schema將一個(gè)或多個(gè)文檔組合在一個(gè)邏輯索引中。

    在SolrCloud中,一個(gè)集合可以被分成多個(gè)邏輯分片,這些分片又可以分布在多個(gè)節(jié)點(diǎn)上,或者在單個(gè)節(jié)點(diǎn)Solr安裝中,集合可以是單個(gè)Core。

  • 提交(Commit)

    使索引中的文檔永久更改。在添加文檔的情況下,它們將在提交后進(jìn)行搜索。

  • 核心(Core)

    一個(gè)單獨(dú)的Solr實(shí)例(表示一個(gè)邏輯索引)。多個(gè)核心可以在單個(gè)節(jié)點(diǎn)上運(yùn)行。另請參見SolrCloud。

  • 核心重新加載(Core reload)

    在對schema.xml,solrconfig.xml或其他配置文件進(jìn)行更改后重新初始化 Solr 內(nèi)核。

  • 分布式搜索(Distributed search)

    分布式搜索是跨多個(gè)Shard處理查詢的地方。

  • 文件(Document)

    一組字段及其值。文檔是集合中數(shù)據(jù)的基本單位。文檔被分配給使用標(biāo)準(zhǔn)哈希的分片,或者指定在文檔 ID 中指定一個(gè)分片。文檔在每次寫入操作后進(jìn)行版本控制。

  • 集成(Ensemble)

    一個(gè)ZooKeeper術(shù)語,用于指示多個(gè)ZooKeeper實(shí)例同時(shí)運(yùn)行并相互協(xié)調(diào)以實(shí)現(xiàn)容錯。

  • 小平面(Facet)

    搜索結(jié)果根據(jù)索引條款的類別安排。

  • 字段(Field)

    要索引/搜索的內(nèi)容以及定義Solr如何處理內(nèi)容的元數(shù)據(jù)。

  • 逆文檔頻率(IDF)

    衡量一個(gè)術(shù)語的總體重要性。它是按文檔總數(shù)除以特定單詞在集合中出現(xiàn)的文檔數(shù)來計(jì)算的。請參閱:http://en.wikipedia.org/wiki/Tf-idf和Lucene TFIDFSimilarity javadocs,以獲取更多有關(guān)TF-IDF評分和Lucene評分的信息。另請參見:術(shù)語頻率。

  • 倒置索引

    創(chuàng)建可搜索索引的方法是列出每個(gè)單詞和包含這些單詞的文檔,類似于書籍后面的索引,其中列出可以找到它們的單詞和頁面。當(dāng)執(zhí)行關(guān)鍵字搜索時(shí),這種方法被認(rèn)為比替代方法更有效,這將會創(chuàng)建與每個(gè)文檔中使用的每個(gè)單詞配對的文檔列表。由于用戶使用期望在文檔中的術(shù)語進(jìn)行搜索,所以在文檔之前找到術(shù)語節(jié)省了處理資源和時(shí)間。

  • 領(lǐng)導(dǎo)(Leader)

    單個(gè)副本的每個(gè)碎片的是負(fù)責(zé)在同一分片協(xié)調(diào)索引更新(文件添加或缺失)到其他副本的。這是通過選舉分配給一個(gè)節(jié)點(diǎn)的臨時(shí)責(zé)任,如果當(dāng)前碎片Leader(Shard Leader)發(fā)生故障,將自動選擇一個(gè)新的節(jié)點(diǎn)代替它。另請參見SolrCloud。

  • 元數(shù)據(jù)(Metadata)

    從字面上看,這是表示關(guān)于數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)是關(guān)于文檔的信息,例如其標(biāo)題、作者或位置。

  • 自然語言查詢(Natural language query)

    以用戶身份輸入的搜索通常會說或?qū)懀纭笆裁词前⑺酒チ???/p>

  • 節(jié)點(diǎn)(Node)

    運(yùn)行Solr的JVM實(shí)例。也被稱為Solr服務(wù)器。

  • 開放式并發(fā)(Optimistic concurrency)

    也稱為“開放式鎖定(optimistic locking)”,這是一種允許在保留鎖定或版本控制的情況下對當(dāng)前索引中的文檔進(jìn)行更新的方法。

  • 監(jiān)督員(Overseer)

    SolrCloud中的單個(gè)節(jié)點(diǎn),負(fù)責(zé)處理和協(xié)調(diào)涉及整個(gè)集群的操作。它跟蹤現(xiàn)有節(jié)點(diǎn)、集合、分片和副本的狀態(tài),并將新副本分配給節(jié)點(diǎn)。這是一個(gè)通過選舉分配給節(jié)點(diǎn)的臨時(shí)責(zé)任,如果當(dāng)前的監(jiān)督員關(guān)閉了,則一個(gè)新的節(jié)點(diǎn)將被自動選擇代替。另請參見SolrCloud。

  • 查詢解析器(Query parser)

    查詢解析器處理用戶輸入的術(shù)語。

  • Recall

    搜索引擎檢索用戶查詢的所有可能匹配的能力。

  • Relevance

    文檔對用戶進(jìn)行搜索的合適性。

  • Replica

    一個(gè)在SolrCloud 集合中充當(dāng)碎片的物理副本的核心。

  • Replication

    一種將主索引從一臺服務(wù)器復(fù)制到一臺或多臺“slave”或“child”服務(wù)器的方法。

  • RequestHandler

    告訴Solr如何處理傳入“請求”的邏輯和配置參數(shù),請求是返回搜索結(jié)果,索引文檔還是處理其他自定義情況。

  • SearchComponent

    請求處理程序用來處理查詢請求的邏輯和配置參數(shù)。搜索組件的例子包括facet,突出顯示和“更像這樣”的功能。

  • Shard

    在SolrCloud中,一個(gè)Collection的邏輯分區(qū)。每個(gè)碎片至少包含一個(gè)物理副本,但可能有多個(gè)副本分布在多個(gè)節(jié)點(diǎn)上以實(shí)現(xiàn)容錯。另請參見SolrCloud。

  • SolrCloud

    Solr中一系列功能的術(shù)語,它允許管理Solr節(jié)點(diǎn)集群以實(shí)現(xiàn)可伸縮性、容錯性和高可用性。

  • Solr架構(gòu)(managed-schema或schema.xml)

    Solr索引架構(gòu)定義要編入索引的字段以及字段的類型(文本,整數(shù)等),默認(rèn)情況下,架構(gòu)數(shù)據(jù)可以在運(yùn)行時(shí)使用架構(gòu)API進(jìn)行 “管理”,并且通常保存在一個(gè)名為managed-schema的文件中,Solr 根據(jù)需要進(jìn)行修改,但是可以將一個(gè)集合配置為使用靜態(tài)Schema,該Schema只在啟動時(shí)從人工編輯的配置文件(通常以named命名)加載schema.xml。有關(guān)詳細(xì)信息,請參閱SolrConfig中的架構(gòu)工廠定義。

  • SolrConfig(solrconfig.xml)

    Apache Solr 配置文件。定義索引選項(xiàng)、RequestHandlers、突出顯示、拼寫檢查和其他各種配置。solrconfig.xml文件位于Solr home conf目錄中。

  • 拼寫檢查(Spell Check)

    向用戶建議搜索條件的替代拼寫的能力,作為檢查拼寫錯誤的結(jié)果,導(dǎo)致很少或零的結(jié)果。

  • 停用詞(Stopwords)

    一般而言,對用戶的搜索意義不大但可能已經(jīng)作為自然語言查詢的一部分輸入的詞語。停用詞通常是非常小的代詞,連詞和介詞(如“the”,“with”或“and”)

  • 建議者(Suggester)

    Solr中的功能提供了在用戶鍵入時(shí)向用戶建議可能的查詢條件的能力。

  • 同義詞(Synonyms)

    同義詞通常是意義上相互接近的術(shù)語,可以互相替代。在搜索引擎實(shí)現(xiàn)中,同義詞可以是縮寫以及單詞,或者不是一致的連字符。在這種情況下的同義詞的例子是“Inc.”和“Incorporated”或“iPod”和“i-pod”。

  • 術(shù)語頻率(Term frequency)

    給定文檔中出現(xiàn)單詞的次數(shù)。請參閱:http://en.wikipedia.org/wiki/Tf-idf 和 Lucene TFIDFSimilarity javadocs 以獲取更多有關(guān)TF-IDF評分和Lucene評分的信息。另請參閱: 反向文檔頻率(IDF)。

  • 事務(wù)日志(Transaction log)

    由每個(gè)副本維護(hù)的只寫操作追加日志。這個(gè)日志是SolrCloud實(shí)現(xiàn)所必需的,由Solr自動創(chuàng)建和管理。

  • 通配符(Wildcard)

    通配符允許替換單詞的一個(gè)或多個(gè)字母來解釋拼寫或時(shí)態(tài)中可能的變化。

  • ZooKeeper

    也被稱為Apache ZooKeeper。SolrCloud使用的系統(tǒng)跟蹤群集的配置文件和節(jié)點(diǎn)名稱。ZooKeeper集群用作集群的中央配置存儲,用于需要分布式同步的操作的協(xié)調(diào)器以及用于集群拓?fù)涞挠涗浵到y(tǒng)。另請參見SolrCloud。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號