对于asynchron BI标记驱动的数据库(Tag driven database for asy

2019-10-29 07:18发布

我在未来与对标签驱动软件我设计的体系结构的小问题。

我想要做的就是在数据库存储明文,这是喜欢所有者和其他实体。 纯文本充满了标签就像Twitter的主题标签,并应搜索/索引的。 可以做应用端,因此我就不得不吨需要为业务intelligens要处理的数据的小块的。

没有人是要去准备明文这只是关于它不需要是一致的,可以运行asynchron分析。

我知道,Twitter使用多个数据库:肫卡桑德拉的鸣叫和FlockDb的关系。

我不喜欢使用混合来完成的关系,我并不想要么是下一个建立社交网络。 我需要做虽然是在相对于其它实体的所有标签的分析。

我怎样才能解决这个散列标签问题,或者我怎么能处理文本,使其工作?

我真的寻找一个很好的解决方案不是任何解决方案。 我真的知道如何创建SQL架构。

谢谢你帮助我通过该数据库丛林。

Answer 1:

下面是表示数据库中标记一个相当标准的方法:

应用解析RAW_TEXT,对于每个识别标签检查它是否已经在TAG,并将其插入那里,如果事实并非如此。 然后,它只是连接着从中提取,插入TAG_POST标签的帖子。

注意TAG_POST的复合主键字段的顺序 - 在前沿有利于TAG_ID对于给定的标签的职位提高搜索效率。 如果你想获得一个特定职位的标签,翻转的顺序。 如果你想同时,建立从PK相反的顺序一个综合指数。

如果你的DBMS支持集群 ,TAG_POST将是它一个很好的候选人。


如果你的DBMS支持领先的索引压缩(Oracle)的,可以考虑简单地这样做:

压缩的指数将有效地存储在同一TAG_NAME的多次重复,所以没有必要“外包”给其他表只是为了节省空间。



文章来源: Tag driven database for asynchron BI