Java集合和内存优化(Java collection and memory optimizatio

我写了一个自定义索引到使用堆的500MB为500K字符串自定义表。只有10％的字符串是独一无二的; 其余的都是重复的。每串是长度为4的。

如何我可以优化我的代码？我应该使用另一个集合？我试图实现一个自定义字符串池以节省内存：

public class StringPool {

    private static WeakHashMap<String, String> map = new WeakHashMap<>();

    public static String getString(String str) { 
        if (map.containsKey(str)) {
            return map.get(str);
        } else {
            map.put(str, str);
            return map.get(str);
        }
    }
}

private void buildIndex() {
        if (monitorModel.getMessageIndex() == null) {
            // the index, every columns create an index
            ArrayList<HashMap<String, TreeSet<Integer>>> messageIndex = new ArrayList<>(filterableColumn.length);
            for (int i = filterableColumn.length; i >= 0; i--) {
                // key -> string,   value -> treeset, the row wich contains the key
                HashMap<String, TreeSet<Integer>> hash = new HashMap<>();
                messageIndex.add(hash);
            }
            // create index for every column
            for (int i = monitorModel.getParser().getMyMessages().getMessages().size() - 1; i >= 0; --i) {
                TreeSet<Integer> tempList;

                for (int j = 0; j < filterableColumn.length; j++) {
                    String value  = StringPool.getString(getValueAt(i, j).toString());
                    if (!messageIndex.get(j).containsKey(value)) {
                        tempList = new TreeSet<>();
                        messageIndex.get(j).put(value, tempList);
                    } else {
                        tempList = messageIndex.get(j).get(value);
                    }

                    tempList.add(i);
                }
            }
            monitorModel.setMessageIndex(messageIndex);
        }
    }

Answer 1:

您可能要检查你的内存堆在一个分析器。我的猜测是，内存消耗主要不是在字符串存储，但在许多TreeSet<Integer>实例。如果是这样，则可以通过使用基本数组相当优化（ int[] short[]或byte[]这取决于要存储的整数值的实际大小）。或者你可以寻找到一个原始集合类型，如提供的FastUtil或特罗韦。

如果您发现该字符串存储是有问题的，我会假设你想扩展您的应用程序超过50万串，或特别紧内存限制需要你去复制甚至短字符串。

作为开发说， String.intern()将重复数据删除字符串为您服务。一个警告，但是-在Oracle和OpenJDK的虚拟机String.intern()将这些字符串存储在VM永久代，这样它们就不会被垃圾收集在未来。这是适当的（和有益的），如果：