4 寻找热门查询:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。(1)请描述你解决这个问题的思路;(2)请给出主要的处理流程,算法,以及算法的复杂度。

4 寻找热门查询:

搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。请你统计最热门的10个查询串,要求使用的内存不能超过1G。

(1)请描述你解决这个问题的思路;

(2)请给出主要的处理流程,算法,以及算法的复杂度。


相关考题:

()既是用于检索的软件又是提供查询、检索的网站。 A.搜索文件B.搜索程序C.搜索网页D.搜索引擎

网上销售为了方便和引导用户选购提供了()服务A、导航服务B、查询功能C、检索服务D、搜索引擎

通过搜索引擎查询包含“北京”或“奥运会”的内容,正确的检索式为()。 A.北京!奥运会B.北京AND奥运会C.北京OR奥运会D.北京(奥运会)

下面关于文本检索的叙述,其中错误的是( )。 A、文本检索系统返回给用户的查询结果都是用户所希望的结果B、全文检索允许用户对文本中所包含的字串或词进行查询C、用于Web信息检索的搜索引擎大多采用全文检索D、检索信息时用户首先要给出查询要求,然后由文本检索系统将查询结果返回给用户

搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来,每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高,其实互异的查询串不超过三百万个;显然,一个查询串的重复度越高,说明查询它的用户越多,也就是越热门)。现要统计最热门的1 0个查询串,且要求使用的内存不能超过1GB。以下各方法中,可行且效率最高的方法是( )。A.将一千万个查询串存入数组并进行快速排序,再统计其中每个查询串重复的次数B.将一千万个查询串存入数组并进行堆排序,再统计其中每个查询串重复的次数C.利用哈希表保存所有的查询串并记下每个查询串的重复次数,再利用小根堆选出重复次数最多的1 0个查询串D.利用哈希表保存所有的查询串并记下每个查询串的重复次数,再利用大根堆选出重复次数最多的1 0个查询串

搜索引擎会通过日志文件把用户每次检索使用的所有查询串都记录下来,每个查询串的长度不超过255字节。假设目前有一千万个查询记录(重复度比较高,其实互异的查询串不超过三百万个;显然,一个查询串的重复度越高,说明查询它的用户越多,也就是越热门)。现要统计最热门的10个查询串,且要求使用的内存不能超过1GB。以下各方法中,可行且效率最高的方法是(41)A.将一千万个查询串存入数组并进行快速排序,再统计其中每个查询串重复的次数B.将一千万个查询串存入数组并进行堆排序,再统计其中每个查询串重复的次数C.利用哈希表保存所有的查询串并记下每个查询串的重复次数,再利用小根堆选出重复次数最多的10个查询串D.利用哈希表保存所有的查询串并记下每个查询串的重复次数,再利用大根堆选出重复次数最多的10个查询串

档案管理系统检索查询模块应满足()主要要求。A能对查询目的、时间、内容、效果等信息进行记录、分析、统计B能根据检索查询模块提供多条件组合查询,并能对常用检索途径进行优化,满足用户对查全率、查准率的要求C能根据用户需要设臵目录检索、全文检索、图文声像一体化检索等功能D能对查询结果进行显示、排序、转存、打印或选择输出等技术处理

基于内容的音频检索可为用户提供可视化的检索方式,并且是按照与用户输入的查询信息相似程度来排列查询结果。

9、基于内容的音频检索可为用户提供可视化的检索方式,并且是按照与用户输入的查询信息相似程度来排列查询结果。