`

分析BetBrain数据的总结

    博客分类:
  • java
 
阅读更多

BetBrain提供的数据,完全是按照关系建模,严格遵守三范式,xml数据下载到本地以后,无法直接看懂这些数据的意思。所以必须按照他们的套路,将所有数据首先解析,入库,然后用sql查询。

 

然而他们的数据模型非常庞大,共计有59个表,参见https://everymatrix.atlassian.net/wiki/display/BF/Event。这么多的数据表,要弄一套完全入库的逻辑,如果按照一般的做法,需要比较长的时间,主要是这些事情比较枯燥,字段多,手工容易出错。

 

所以在处理的过程当中,用了以下的手法,达到了快速,准确的目的:

 

1. 重复的事情尽量用机器做,人工只处理逻辑的部分。

1.1 首先要采集这些模型,将所有模型分别截图,然后找到了一个在线识别图片文字的网站http://www.newocr.com/,输入图片,输出表名以及字段名,避免手工敲的时候出错,写漏。但是识别图片也有误差,所有的弄完以后,还是人工校验一次。

 

1.2 当整个数据模型的表,以及字段名都采集下来以后,考虑写程序,将所有的数据,写入数据库。这里面涉及到建表,写java从domain, dao到service的各个层次的程序,一共59个表,如果纯手工的话,写完以后又要测试什么的,很难保证全部正确,费时费力。所以考虑了写模板,然后生成所有的代码这个办法。最后在线上找到了一个网站http://klmu.v099.10000net.cn/,可以一次生成从页面,到数据入库用mybatis的所有逻辑。只需录入包名,表名,以及字段,都生成了。大概总共花了一天的时间,就生成了全部的模型代码,并且测试增删改查数据通过。这个就是工具的威力。

 

1.3 在模型代码都生成完毕以后,要进行xml解析,里面一些逻辑,还是不可避免的有些简单重复的代码,就写了个freemaker的模板,运行java程序,生成代码。

package com.hym.odds.util;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.Map;


import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import freemarker.template.Configuration;
import freemarker.template.DefaultObjectWrapper;
import freemarker.template.Template;
import freemarker.template.TemplateException;
import freemarker.template.TemplateExceptionHandler;

/**
 * FreeMarkerUtil
 * 
 * @project betbrain
 * @author huyumin
 * @date 2011-9-17
 */
public class FreeMarkerUtil {

    public static Logger logger = LoggerFactory.getLogger(FreeMarkerUtil.class);


    public static boolean geneHtmlFile(String vsource, @SuppressWarnings("rawtypes") Map propMap,String vpath, String vtarget) {
        FileOutputStream fos = null;
        OutputStreamWriter osw = null;
        Writer out = null;
        try {
            Configuration freemarker_cfg = new Configuration();
            freemarker_cfg.setDirectoryForTemplateLoading(new File("F:\\test\\betBrain\\src\\com\\hym\\odds\\util"));//模板移到根目录了
            freemarker_cfg.setObjectWrapper(new DefaultObjectWrapper());
            freemarker_cfg.setDefaultEncoding("UTF-8");
            freemarker_cfg.setTemplateExceptionHandler(TemplateExceptionHandler.IGNORE_HANDLER);
            Template template = freemarker_cfg.getTemplate(vsource);
            template.setEncoding("UTF-8");
            //creatDirs(vpath + vtarget);
            File afile = new File(vpath + vtarget);
            fos = new FileOutputStream(afile);
            osw = new OutputStreamWriter(fos, "UTF-8");
            out = new BufferedWriter(osw);
            template.process(propMap, out);
            out.flush();
        } catch (TemplateException e) {
           e.printStackTrace();
            return false;
        } catch (IOException e) {
            e.printStackTrace();
            return false;
        } finally {
            if (out != null) {
                try {
                    out.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (osw != null) {
                try {
                    osw.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
            if (fos != null) {
                try {
                    fos.close();
                } catch (IOException e) {
                    logger.error(e.getMessage());
                }
            }
        }
        return true;
    }


    public static boolean creatDirs(String path) {
        File aFile = new File(path);
        if (!aFile.exists()) {
            return aFile.mkdirs();
        } else {
            return true;
        }
    }

}

 

 

1.4 整套代码在处理的过程当中,不可避免的出现字段名弄错的情况,校正这种错误,就写了个ant脚本,对错误的部分进行替换。

 

<?xml version="1.0" encoding="utf-8" ?>
<project default="main" basedir=".">

   <target name="main">
   	<!--
   	<echo>replace sql...</echo>
	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
        <replacefilter token="varchar(100)" value="varchar(255)"/>
		<replacefilter token="AUTO_INCREMENT=17 " value=""/>
		<replacefilter token="auto_increment" value=""/>
    </replace>
	-->
   	<!--
	<echo>replace mapper.xml...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\persistence" includes="*.xml" encoding="UTF-8">
		<replacefilter token="(`" value="(`id`,`"/>
        <replacefilter token="values (" value="values (#{id},"/>
		
		<replacefilter token="`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`,`id`" value="`id`"/>
		<replacefilter token="#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id},#{id}" value="#{id}"/>
    </replace>
   	-->
   	<!--
   	<echo>replace ocationRelation...</echo>
   	<replace dir="F:\test\betBrain\db" includes="*.sql" encoding="UTF-8">
   		<replacefilter token="ocationReIation" value="ocationRelation"/>
   	</replace>
   	-->
	<!--
	<echo>replace 标注...</echo>
	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
		<replacefilter token="private" value="@XStreamAsAttribute private"/>
    </replace>
   	-->
   	
   	<echo>replace ventAtion...</echo>
   	   	<replace dir="F:\test\betBrain\src\com\hym\odds\domain" includes="*.java" encoding="UTF-8">
   	   		<replacefilter token="ventAtion" value="ventAction"/>
   	   	</replace>
   	</target>
</project>

 

2. 选对正确的xml的解析工具。针对这个特点,基本上是xml一个模型,对应一张表,所以选用的Xstream来处理。这个里面就只有日期类型不匹配,betbrain的日期是yyyy-MM-dd HH:mm:ss.SSS的格式的,就需要进行单独的处理,自己首先写了一个DateConverter,但是没有解决问题,最后只有debugger到xstream的代码中,跟了两次执行过程,把Xstream中的DateConverter拷贝出来,然后添加相应的日期格式就好了,日期全部更新入库。

 

3. 泛型的使用。在使用xstream解析xml模型,转换成domain的过程中,如果不用泛型,要写大量的重复代码。运用泛型,只需几行代码搞定。

package com.hym.odds.util;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.hym.odds.dto.UpdateDataDTO;
import com.thoughtworks.xstream.XStream;
import com.thoughtworks.xstream.io.xml.XppDomDriver;

public class XMLParseUtil {
	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static <T> T parseInitXML(Class<T> clazT, Class clazD, String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<entities>.*?</entities>)").matcher(
					xmlContent);
			T dto = null;
			if (m.find()) {
				String s = m.group();

				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());

				xs.processAnnotations(clazT);
				xs.alias("entities", clazT);
				xs.alias(clazD.getSimpleName(), clazD);
				xs.addImplicitCollection(clazT, "entities");
				dto = (T) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}

	@SuppressWarnings({ "rawtypes", "unchecked" })
	public static UpdateDataDTO parseUpdateXML(String xml) {
		try {
			String xmlContent = xml.replaceAll("\n", "").replaceAll("\r", "");
			Matcher m = Pattern.compile("(<UpdateData.*?</UpdateData>)")
					.matcher(xmlContent);
			UpdateDataDTO dto = null;
			while (m.find()) {
				String s = m.group();
				XStream xs = new XStream(new XppDomDriver());
				xs.registerConverter(new DateConverter());
				xs.processAnnotations(UpdateDataDTO.class);
				xs.alias("UpdateData", UpdateDataDTO.class);

				dto = (UpdateDataDTO) xs.fromXML(s);
			}
			return dto;
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
}

 

 

 

4. 数据性能,整个数据有8G多,在插入的时候,如果都是一条,一条的插入,相当的耗时。所以考虑用batch insert。但是批量插入的时候,一次数据也不能超多,太多了的话,也很慢。所以只能对数据进行分页插入。

 

@SuppressWarnings("rawtypes")
	public static void insertObjectToDB(List list, String className,
			ApplicationContext context) {
		if ("BettingOffer".equals(className)) {
			BettingOfferService bettingOfferService = (BettingOfferService) context
					.getBean("bettingOfferService");
			
//			for (Object object : list) {
//				bettingOfferService.insert((BettingOffer) object);
//			}
			
			
			int start = 0;
			int end = 499;
			int size = list.size();
			if (end >= size) {
				end = size;
			}
			
			while (end <= size && start < end) {
				List subList = list.subList(start, end);
				bettingOfferService.insertBatch(subList);
				System.out.println("batch insert start = " + start + ", end = " + end);
				start = start + 500;
				end = end + 500;
				if (end >= size) {
					end = size;
				}
			}
			
			//bettingOfferService.insertBatch(list);
		} else if ("BettingOfferStatus".equals(className)) {

 

分享到:
评论

相关推荐

    lucene-sandbox-7.2.1.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    groovy-all-2.5.0-beta-2.jar中文-英文对照文档.zip

    # 压缩文件中包含: 中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    h2-1.3.176.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    深刻理解VXLAN 大二层:H3C实验分析与实战分享

    Vxlan大二层配置

    基于巴氏系数的协同过滤算法.zip

    解压密码666666

    工程领域二维巷道开挖模型文件的研究与应用

    内容概要:本文详细解析了二维巷道开挖模型文件的概念、组成及其在工程项目中的应用。首先介绍了模型文件作为地下工程设计和施工重要依据的作用,接着阐述了其由图形数据(如平面图、剖面图)、参数数据(如尺寸、坡度、支护结构)和文本数据组成的结构特点。随后探讨了模型文件在工程设计、施工指导和安全评估等方面的具体应用场景,强调其对提高设计效率、施工质量和安全性的重要意义。最后展望了未来计算机技术和大数据背景下,模型文件制作和应用的发展趋势。 适合人群:从事地下工程设计和施工的工程师和技术人员。 使用场景及目标:帮助工程师和技术人员更好地理解和应用二维巷道开挖模型文件,从而提升工程项目的规划、实施和安全管理效率。 其他说明:随着科技的进步,未来的模型文件将更加强调数据的实时性和动态性,借助人工智能和大数据技术,使分析和评估更为精准全面。

    基于复杂网络理论的运载器产品装配过程资源可靠性分析.zip

    基于复杂网络理论的运载器产品装配过程资源可靠性分析.zip

    网络安全网络协议欺骗攻防技术详解:ARP、IP、路由、TCP及DNS欺骗原理与防范措施综述了文档的主要内容

    内容概要:本文详细介绍了几种常见的网络协议欺骗技术及其防范方法。首先讲解了ARP欺骗的工作原理,即攻击者通过篡改目标主机和路由器的ARP缓存表,使自己成为中间人,进而截获和篡改数据。接着阐述了IP地址欺骗,攻击者通过伪造IP地址,伪装成被信任的主机,获取非授权的服务。然后讨论了路由欺骗,包括RIP路由欺骗和IP源路由欺骗,攻击者通过改变路由表,使数据包经过攻击者控制的节点。还介绍了TCP欺骗,分为非盲攻击和盲攻击两种形式,前者通过嗅探工具捕获序列号,后者则依靠预测技术。最后探讨了DNS欺骗,攻击者通过篡改DNS查询结果,将用户引向虚假服务器。; 适合人群:对网络安全有一定了解的技术人员,特别是从事网络安全防护工作的专业人员。; 使用场景及目标:①帮助技术人员理解各种网络协议欺骗的具体实现方式;②为网络管理员提供有效的防范措施,如绑定MAC地址、配置防火墙、关闭源路由功能、使用加密工具等;③提升读者对网络协议安全性的认识,增强防范意识。; 其他说明:本文不仅详细描述了每种欺骗技术的操作流程,还提供了具体的防范措施。读者在学习过程中应注意结合实际网络环境,采取相应的安全策略,确保网络系统的稳定性和安全性。

    Comsol仿真下蜂窝层芯夹层板结构振动与传声特性研究及其在交通工具中的应用

    内容概要:本文由任树伟、辛锋先、卢天健发表于《力学学报》,主要研究了Comsol蜂窝层芯夹层板结构的振动与传声特性。研究通过建立精确的数学模型并结合实验数据分析了该结构在外力激励下的振动响应和声音传播特性。研究表明,这种结构在飞行器、高速列车等交通工具的应用中,其振动和传声特性对乘坐舒适性和安全性有重要影响。研究成果不仅为交通工具的设计和制造提供了科学依据,还为相关领域的进一步研究提供了有价值的数据支持。 适合人群:从事航空、轨道交通等领域设计与制造的专业人士,以及对复合材料力学性能感兴趣的科研工作者。 使用场景及目标:①优化飞行器、高速列车等交通工具的结构设计,提高其性能和乘坐舒适性;②为复合材料的力学性能研究提供理论和技术支持。 其他说明:该研究强调了蜂窝层芯夹层板结构在实际应用中的重要性,特别是其振动和传声特性对交通工具的影响。

    艺恩数据网站部分年份数据抓取

    艺恩数据网站部分年份数据抓取

    香蕉成熟度分类目标检测数据集(YOLO格式)构建与应用

    内容概要:本文详细介绍了香蕉成熟度分类目标检测数据集的构建及其应用方法。数据集采用YOLO格式,包含18074张图像,分为训练集、验证集和测试集。文中不仅展示了数据集的目录结构和标签文件格式,还提供了Python代码用于加载和可视化标签,以及使用Ultralytics的YOLOv8进行模型训练的方法。此外,针对实际操作中可能出现的问题如类别ID调整、样本不均衡处理等给出了具体解决方案,并分享了一些提高标注精度的小技巧。 适合人群:对目标检测感兴趣的研究人员和技术爱好者,尤其是希望利用深度学习技术进行水果成熟度识别的从业者。 使用场景及目标:适用于需要构建和训练香蕉成熟度分类模型的研究项目或商业应用。主要目标是帮助用户掌握从数据准备到模型部署的完整流程,同时提供解决常见问题的有效途径。 其他说明:本文提供的代码片段可以直接运行,但需确保环境已安装相关依赖库。对于初学者而言,在尝试复现实验前建议先熟悉YOLO算法的基本概念和工作原理。

    修改oc混淆垃圾代码2.0版本

    修改oc混淆垃圾代码2.0版本

    欧姆龙PLC Modbus RTU主站通讯简易实现方法及应用场景

    内容概要:本文介绍了一种简易的欧姆龙PLC Modbus RTU主站通讯解决方案,适用于CP1H、CP1L、CJ2M等型号的PLC。通过设置RS485通信的RS232C模式,用户可以轻松实现Modbus RTU通讯,而无需复杂的配置。文中详细介绍了读操作和写操作的具体步骤,以及CRC校验的应用。此外,还提到了功能码的支持范围和多功能块调用时的注意事项。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是那些需要快速实现Modbus RTU通讯的人群。 使用场景及目标:① 快速搭建欧姆龙PLC与支持Modbus RTU设备之间的通讯;② 简化配置过程,提高工作效率;③ 实现读写操作,确保数据传输的准确性。 其他说明:本文提供了详细的代码示例和设置指导,帮助用户更好地理解和实施该方案。未来还将提供设置图片,进一步辅助理解。

    移动机器人全局路径规划仿真研究.zip

    移动机器人全局路径规划仿真研究.zip

    基于支持向 量机分类算法的齿轮箱故障诊断.zip

    基于支持向 量机分类算法的齿轮箱故障诊断.zip

    基于深度神经网络的微扰动压入式沉井顶压力智能预测方法.pdf

    基于深度神经网络的微扰动压入式沉井顶压力智能预测方法.pdf

    activiti-common-rest-5.21.0.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    activiti-json-converter-5.21.0.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

    IEC 61347-1-2015

    IEC 61347-1-2015

    shiro-config-core-1.4.0.jar中文文档.zip

    # 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;

Global site tag (gtag.js) - Google Analytics