优享资讯 | Spring Boot中实现字典树（Trie）数据结构用于设计搜索自动补全系统

掘金后端 ( ) • 2024-06-16 07:24

Spring Boot中实现字典树（Trie）数据结构用于设计搜索自动补全系统

在Spring Boot中实现字典树（Trie）数据结构用于设计搜索自动补全系统，主要可以通过以下几种方式进行：自定义字典树实现、使用现有库、集成第三方搜索服务。

下边我将根据详细讲解一下这三种情况。

自定义字典树实现

场景描述：自动补全用户名

假设我们在开发一个社交媒体平台的后端服务，用户经常需要在搜索栏中输入其他用户的用户名。为了提高用户体验，我们希望实现一个功能，当用户开始键入用户名时，系统能够提供自动补全的建议。

在这个场景中，我们将使用字典树（Trie）来存储所有用户名，以便快速检索和自动补全用户输入的部分用户名。下面是一个具体的Java实现，包括基本的字典树结构和自动补全功能。

字典树实现代码示例：

import java.util.ArrayList;
import java.util.List;

// 定义Trie节点
class TrieNode {
    TrieNode[] children = new TrieNode[26];
    boolean isEndOfWord = false;

    public TrieNode() {
        for (int i = 0; i < 26; i++) {
            children[i] = null;
        }
    }
}

// 定义Trie数据结构
public class Trie {
    private TrieNode root;

    public Trie() {
        root = new TrieNode();
    }

    // 插入单词到Trie
    public void insert(String word) {
        TrieNode pCrawl = root;
        for (int i = 0; i < word.length(); i++) {
            int index = word.charAt(i) - 'a';
            if (pCrawl.children[index] == null) {
                pCrawl.children[index] = new TrieNode();
            }
            pCrawl = pCrawl.children[index];
        }
        pCrawl.isEndOfWord = true;
    }

    // 自动补全功能
    public List<String> autocomplete(String prefix) {
        List<String> results = new ArrayList<>();
        TrieNode pCrawl = root;
        for (int i = 0; i < prefix.length(); i++) {
            int index = prefix.charAt(i) - 'a';
            if (pCrawl.children[index] == null) {
                return results;
            }
            pCrawl = pCrawl.children[index];
        }
        // 从当前节点开始寻找所有可能的单词
        findAllWords(pCrawl, prefix, results);
        return results;
    }

    private void findAllWords(TrieNode node, String currentWord, List<String> results) {
        if (node.isEndOfWord) {
            results.add(currentWord);
        }
        for (int i = 0; i < 26; i++) {
            if (node.children[i] != null) {
                findAllWords(node.children[i], currentWord + (char) (i + 'a'), results);
            }
        }
    }
}

// 在Spring Boot应用中使用
public class UserService {
    private Trie userTrie = new Trie();

    public UserService(List<String> usernames) {
        for (String username : usernames) {
            userTrie.insert(username);
        }
    }

    public List<String> getSuggestedUsernames(String prefix) {
        return userTrie.autocomplete(prefix.toLowerCase());
    }
}

如何使用这个字典树

首先，在Spring Boot的服务启动时，我们可以初始化UserService，并将现有的用户名加载到Trie中。
当用户在前端界面输入用户名的前缀时，前端可以调用后端的API，该API将调用getSuggestedUsernames方法获取自动补全的建议列表。
返回的用户名列表可以直接显示在用户的界面上作为补全建议。

这种实现方式非常适合在用户量不是极度庞大的情况下使用，且可以快速响应用户的输入，提高交互体验。

使用现有库

场景描述：电子邮件地址自动补全

假设我们正在开发一个需要用户频繁输入电子邮件地址的应用程序，例如一个电子邮件客户端或一个在线表单。为了提高用户体验和数据输入速度，我们可以实现一个自动补全功能，帮助用户快速完成电子邮件地址的输入。

在这个场景中，我们可以使用Java的Guava库中的TreeBasedTable或类似结构来实现类似字典树的功能，从而支持电子邮件的自动补全。

使用Guava库实现自动补全的示例代码：

首先，确保在你的Spring Boot项目中包含Guava库依赖：

<!-- 在pom.xml中添加Guava依赖 -->
<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>31.0.1-jre</version> <!-- 确认使用最新版本 -->
</dependency>

实现代码：

import com.google.common.collect.TreeBasedTable;
import java.util.ArrayList;
import java.util.List;
import java.util.SortedMap;

public class EmailAutocompleteService {
    // 使用TreeBasedTable存储和检索电子邮件前缀
    private TreeBasedTable<Character, String, Boolean> emailPrefixTable = TreeBasedTable.create();

    public void addEmail(String email) {
        for (int i = 1; i <= email.length(); i++) {
            char firstChar = email.charAt(0);
            String prefix = email.substring(0, i);
            emailPrefixTable.put(firstChar, prefix, true);
        }
    }

    public List<String> suggestEmails(String input) {
        List<String> suggestions = new ArrayList<>();
        if (input.isEmpty() || !emailPrefixTable.containsRow(input.charAt(0))) {
            return suggestions;
        }

        // 获取匹配当前输入的所有前缀
        SortedMap<String, Boolean> prefixMap = emailPrefixTable.row(input.charAt(0)).subMap(input, input + Character.MAX_VALUE);
        suggestions.addAll(prefixMap.keySet());
        return suggestions;
    }
}

// 在Spring Boot应用中使用
public class EmailService {
    private EmailAutocompleteService autocompleteService = new EmailAutocompleteService();

    public EmailService(List<String> existingEmails) {
        for (String email : existingEmails) {
            autocompleteService.addEmail(email);
        }
    }

    public List<String> getSuggestedEmails(String input) {
        return autocompleteService.suggestEmails(input.toLowerCase());
    }
}

如何使用这个实现

初始化：在EmailService的构造函数中，将所有已知的电子邮件地址添加到autocompleteService中。这个过程可以在应用启动时完成，例如从数据库加载现有用户的电子邮件。
自动补全调用：当用户在UI中输入电子邮件的一部分时，可以调用getSuggestedEmails方法来获取可能的补全选项。
结果显示：返回的电子邮件地址列表可以直接在用户界面上显示，作为自动补全的建议。

这种方法利用了Guava库的高效数据结构，适合于电子邮件等字符串的快速查找和排序，特别是在前缀匹配的情况下。这种方式比自定义字典树实现简单，维护成本较低，但可能在大规模数据处理上性能略逊于自定义高优化的字典树实现。

集成第三方搜索服务

场景描述：电商平台商品搜索自动补全

在一个电商平台上，商品搜索是用户交互的一个核心部分。快速而精确的搜索可以显著提升用户体验。使用第三方搜索服务如Elasticsearch，我们可以实现一个功能强大的搜索自动补全系统，该系统能够基于用户输入实时推荐相关的商品名称或品类。

Elasticsearch集成

Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎，它允许你快速地、几乎实时地存储、搜索和分析大量数据。它通常被用于实现复杂搜索功能，包括全文搜索和结构化搜索。

1. 添加Elasticsearch依赖

在你的Spring Boot项目中添加Elasticsearch依赖：

<!-- 在pom.xml中添加Elasticsearch依赖 -->
<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
    <version>2.5.0</version> <!-- 确认使用与Spring Boot版本相匹配的版本 -->
</dependency>

2. 配置Elasticsearch

在application.properties或application.yml中配置Elasticsearch连接：

spring.elasticsearch.rest.uris=http://localhost:9200
spring.elasticsearch.rest.username=elastic
spring.elasticsearch.rest.password=pass

3. 实现自动补全功能

以下是在Spring Boot中集成Elasticsearch并实现自动补全的简单示例：

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.data.elasticsearch.core.ElasticsearchRestTemplate;
import org.springframework.data.elasticsearch.core.query.NativeSearchQueryBuilder;
import org.springframework.data.elasticsearch.core.query.Query;
import org.springframework.stereotype.Service;
import org.elasticsearch.index.query.QueryBuilders;
import org.elasticsearch.search.suggest.SuggestBuilders;
import org.elasticsearch.search.suggest.completion.CompletionSuggestionBuilder;

import java.util.List;
import java.util.stream.Collectors;

@Service
public class ProductService {
    @Autowired
    private ElasticsearchRestTemplate elasticsearchTemplate;

    public List<String> autocompleteProduct(String prefix) {
        CompletionSuggestionBuilder suggestionBuilder = SuggestBuilders.completionSuggestion("suggest")
            .prefix(prefix)
            .size(5); // 控制返回的建议数

        Query searchQuery = new NativeSearchQueryBuilder()
            .withSuggestBuilder(suggestionBuilder)
            .build();

        return elasticsearchTemplate.suggest(searchQuery, Product.class).stream()
            .flatMap(suggest -> suggest.getEntries().stream())
            .flatMap(entry -> entry.getOptions().stream())
            .map(option -> option.getText().string())
            .collect(Collectors.toList());
    }
}

// 定义Elasticsearch文档实体
@Data
@Document(indexName = "products")
public class Product {
    @Id
    private String id;
    private String name;

    @Field(type = FieldType.Text, fielddata = true, name = "suggest", analyzer = "simple", searchAnalyzer = "simple")
    private String suggest;
}

如何使用这个实现

索引数据：确保你的商品数据已被索引到Elasticsearch中，并且包含一个用于自动补全的字段，通常配置为完成类型的字段。
自动补全调用：当用户在前端输入商品名称的开始部分时，前端可以调用autocompleteProduct方法来获取可能的补全选项。
结果显示：返回的商品名称列表可以直接在用户界面上显示，作为自动补全的建议。

这种集成第三方搜索服务的方法不仅提供了强大的搜索能力，还能通过Elasticsearch的高级分析和处理功能来优化搜索结果，适合处理大规模数据和需求复杂的场景。