什么是最可行的方案利用有限的资源做就谷歌图书处理的n-gram数据集？(What are the m

2019-11-01 17:16发布

我需要计算字共现统计约10,000目标词和几百个方面的话，对于每一个目标词，从谷歌图书的n-gram语料库

以下是完整的数据集的链接：

谷歌浏览器NGRAM

可以明显看出数据库是大约2.2TB的，并包含几百亿行。用于计算字共现统计我需要处理对于每个可能对目标和背景字的全部数据。我目前正在考虑使用Hadoop与蜂房数据的批量处理。什么其他可行的方案，考虑到这是一个学术项目，一学期和计算资源的有限的时间限制。

请注意，实时查询的数据不需要

Answer 1:

蜂巢有一个内置的UDF处理的n-gram https://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation

文章来源: What are the most feasible options to do processing on google books n-gram dataset using modest resources?

什么是最可行的方案利用有限的资源做就谷歌图书处理的n-gram数据集？(What are the m

Answer 1:

收藏的人(0)

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮