什么是最可行的方案利用有限的资源做就谷歌图书处理的n-gram数据集?(What are the m

2019-11-01 17:16发布

我需要计算字共现统计约10,000目标词和几百个方面的话,对于每一个目标词,从谷歌图书的n-gram语料库

以下是完整的数据集的链接:

谷歌浏览器NGRAM

可以明显看出数据库是大约2.2TB的,并包含几百亿行。 用于计算字共现统计我需要处理对于每个可能对目标和背景字的全部数据。 我目前正在考虑使用Hadoop与蜂房数据的批量处理。 什么其他可行的方案,考虑到这是一个学术项目,一学期和计算资源的有限的时间限制。

请注意,实时查询的数据不需要

Answer 1:

蜂巢有一个内置的UDF处理的n-gram https://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation



文章来源: What are the most feasible options to do processing on google books n-gram dataset using modest resources?