Files
LeetCode-Go/leetcode/0828.COPYRIGHT-PROBLEM-XXX
halfrost 46faa66642 Merge pull request #60 from halfrost/code_quality_improvement
optimization code quality level from A to A+
2020-08-27 17:41:27 +08:00
..
2020-08-07 17:06:53 +08:00

828. Unique Letter String

题目

THIS PROBLEM COPYRIGHT BELONGS TO CODILITY.COM

Example 1:

Example 2:

题目大意

如果一个字符在字符串 S 中有且仅有出现一次那么我们称其为独特字符。例如在字符串 S = "LETTER" 中,"L" 和 "R" 可以被称为独特字符。我们再定义 UNIQ(S) 作为字符串 S 中独特字符的个数。那么在 S = "LETTER" 中 UNIQ("LETTER") =  2。

对于给定字符串 S计算其所有非空子串的独特字符的个数即 UNIQ(substring))之和。如果在 S 的不同位置上出现两个甚至多个相同的子串那么我们认为这些子串是不同的。考虑到答案可能会非常大规定返回格式为结果 mod 10 ^ 9 + 7。

解题思路

  • 这一题可以先用暴力解法尝试解题,不过提交以后会发现判题结果是超时。出错的一组数据是一个有 10000 个字符的字符串。暴力解法中间由于遍历了太多的子区间,导致了超时。
  • 这道题换一个角度思考问题。当子字符串中字符 X 出现了 2 次以上,那么它就对最终结果没有任何影响,所以只有当某个字符只出现一次的时候才会影响最终结果。再者,一个子字符串中不重复的字符的总个数,也就是这个子字符串 UNIQ 值。例如“ABC”这个子字符串的 UNIQ 值是 3可以这样计算它属于 A 的独特的字符串,也属于 B 的独特的字符串,也属于 C 的独特的字符串,那么计算这个子字符串的问题可以分解成计算 A 有多少个独特的子字符串B 有多少个独特的子字符串C 有多少个独特的子字符串的问题。在计算 A 有多少个子字符串的问题的时候,里面肯定会包含 "ABC" 这个子字符串的。所以原问题就转换成了分别计算给出的字符串中每个字符出现在独特字符串中的总数之和。
  • 假设原字符串是 BAABBABBBAAABA这个字符串中出现了很多 A 和很多 B假设我们当前计算到了第 3 个 A 的位置了(index = 5),即标红色的那个 A。如何计算这个 A 在哪些子字符串中是独特的呢?由于子字符串题目中要求必须是连续的区间,所以这个问题很简单。找到这个 A 前一个 A 的下标位置(index = 2),再找到这个 A 后一个 A 的下标位置(index = 9),即 BAABBABBBAAABA第一个 A 和当前计算的 A 中间区间有 2 个字符,第三个 A 和当前计算的 A 中间有 3 个字符。那么当前计算的 A 出现在 (2 + 1) * (3 + 1) = 12 个子字符串中是独特的,这 12 个字符串是:ABABBAABABBABBBBABBABBBABBBBBABBBABBBBABBB。计算方法,假设当前待计算的字符的下标是 i ,找到当前字符前一次出现的下标位置 left再找到当前字符后一次出现的下标位置 right那么左边区间 (left,i) 的开区间内包含的字符数是 i - left - 1右边区间 (i,right) 的开区间内包含的字符数是 right - i - 1。左右两边都还需要考虑空字符串的情况即左右两边都可以不取任何字符那么对应的就是只有中间这个待计算的字符 A。所以左右两边都还需要再加上空串的情况,左边 i - left - 1 + 1 = i - left右边 right - i - 1 + 1 = right - i。左右两边的情况进行排列组合即 (i - left) * (right - i)。针对字符串的每个字符都计算这样的值,最后累积的总和就是题目中要求的总 UNIQ 值。