﻿使用说明

标题相似度算法，是根据simhash、余弦判断辅以空间向量乘积计算相似度，用层次聚类算法选择聚类
中心。

在src/test/java/startTest中
MongoStart 是对mongo数据库进行使用测试，将结果导出成excel表格
ExcelTest 是对excel表格数据进行使用测试，将结果导出成excel表格
ResultTest  有对各个算法的效果进行模拟测试
ChineseTest  是对繁简体结果转换的测试

在com.zhiweidata.titleAggregation.main中
HCluster  聚类算法的实现类
ClusterUtil  是对算法结果的优化，一般在此对结果进行迭代
ComputeWordsVector  计算文本向量的工具类
CosineSimilarity 余弦算法的工具类
MySimHash  simhash算法的工具类
cutPage  切割算法的工具类

使用:
直接调用    ClusterResult.getResult(List<String> texts);
返回的是List<Result>
Result是结果集的对象，里面有：
	clusterName:类簇名
	dataPointName:节点名
	i：List中的索引
	simhash:simhash距离（越小越好）
	cosSimilarity：余弦算法相似度（越接近1越相似）
	cut：切割算法相似度（越接近1越相似）
	
在各个算法的工具类中，封装了各个算法的相似度计算


