﻿使用说明

标题相似度算法，是根据simhash、余弦判断辅以空间向量乘积计算相似度，用层次聚类算法选择聚类
中心。

在src/test/java/startTest中
MongoStart 是对mongo数据库进行使用测试，将结果导出成excel表格
ExcelTest 是对excel表格数据进行使用测试，将结果导出成excel表格
ResultTest  有对各个算法的效果进行模拟测试
ChineseTest  是对繁简体结果转换的测试

在com.zhiweidata.titleAggregation.main中
HCluster  聚类算法的实现类
ClusterUtil  是对算法结果的优化，一般在此对结果进行迭代
ComputeWordsVector  计算文本向量的工具类
CosineSimilarity 余弦算法的工具类
MySimHash  simhash算法的工具类

使用方法
在startTest中，给出了事例，自行参考

注意
算法支持繁简体的聚类，但不支持对聚类标题的转换  如果对聚类标题有繁简体的要求，
在调用繁简体转换类的方法，自行转换
例：
	ChineseTranslate simplifiedTrans = ChineseTranslate.getInstance(goal.简体);
	String title = simplifiedTrans.trans(text);
