资源描述
IDCP部署及应用FAQ
北京神州泰岳软件股份有限公司
目 录
1 UltraIDCPServer启动常见问题 1
1.1 UltraIDCPServer无法启动,提示版本问题 1
1.2 UltraIDCPServer启动时提示数据库连接失败 1
1.3 UltraIDCPServer启动提示超过数据库连接数 2
1.4 UltraServer启动无报错,但无法访问IDCP主页 2
1.5 UltraIDCPServer启动时卡死在连接MQ部分 3
1.6 UltraIDCPServer启动时卡死在MQ成功连接处 3
1.7 UltraIDCPServer启动时报DBUtil获得连接错误 3
1.8 UltraIDCPServer启动时报catalina路径错误 4
1.9 UltraIDCPServer启动时包RMI错误 4
1.10 UltraIDCPServer调整内存大小 5
2 UltraIDCPProbe常见问题 7
2.1 UltraIDCPProbe启动时报receive错误 7
2.2 Probe启动报错 7
2.3 UltraIDCPProbe启动过程时卡死在连接MQ部分 8
2.4 HP小机上UltraIDCPProbe自动停止 9
2.5 Probe采集文件时报Formating data error错误 10
3 MQ常见问题 11
3.1 MQ启动时报do错误 11
3.2 MQ启动时打印出的JAVA路径不对,无MQ进程 11
3.3 MQ启动时报Broker错误 12
4 应用常见问题 13
4.1 输出NMS 13
4.1.1 NMS入库时,报重复数据错误 13
4.1.2 NMS入库时,有部分资源指标不能入库 13
4.1.3 NMS入库时,报postRawData error 14
4.1.4 NMS入库时报no such object in table 错误 14
4.2 NMS入库时报error type8数据错误 15
4.3 关于输出DB 15
4.3.1 DB接口采集时报错 15
5 其他 16
5.1 传到FTP的文件都加了后缀.temp 16
5.2 解析xml格式的文件时报错 16
本文档属于北京神州泰岳软件股份有限公司内部使用的保密文档,禁止扩散到公司以外。
18
1 UltraIDCPServer启动常见问题
1.1 UltraIDCPServer无法启动,提示版本问题
严重: Error deploying web application directory UltraIDCPServer
java.lang.UnsupportedClassVersionError: Bad version number in .class file
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClass(ClassLoader.java:620)
at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:124)
at org.apache.catalina.loader.WebappClassLoader.findClassInternal(WebappClassLoader.java:1819)
at org.apache.catalina.loader.WebappClassLoader.findClass(WebappClassLoader.java:872)
at org.apache.catalina.loader.WebappClassLoader.loadClass(WebappClassLoader.java:1327)
at org.apache.catalina.loader.WebappClassLoader.loadClass(WebappClassLoader.java:1206)
问题解答:jdk版本较低不满足启动要求,IDCP3.0正式发布版要求jdk版本必须是1.6.0以上。在IDCP3.1时,jdk支持1.5 。
1.2 UltraIDCPServer启动时提示数据库连接失败
2012/03/21 09:39:40 [ERROR] JCLLoggerAdapter Connections could not be acquired from the underlying database!
2012/03/21 09:39:40 WARN JCLLoggerAdapter Could not obtain connection to query metadata
java.sql.SQLException: Connections could not be acquired from the underlying database!
at com.mchange.v2.sql.SqlUtils.toSQLException(SqlUtils.java:104)
at com.mchange.v2.c3p0.impl.C3P0PooledConnectionPool.checkoutPooledConnection(C3P0PooledConnectionPool.java:236)
at com.mchange.v2.c3p0.PoolBackedDataSource.getConnection(PoolBackedDataSource.java:94)
at com.mchange.v2.c3p0.ComboPooledDataSource.getConnection(ComboPooledDataSource.java:521)
问题解答:一般有2种原因:
第一:UltraIDCPServer所在主机无法连接到数据库服务器,可通过telnet等方式检查网络连接设置(网络连接与端口配置)。
第二:UltraIDCPServer的配置文件中的数据库信息有问题,检查UltraIDCPServer的配置文件applicationContext-common.xml。
1.3 UltraIDCPServer启动提示超过数据库连接数
问题解答:提示连接oracle超过了最大连接数,通常是由于数据库配置文件applicationContext-common.xml里密码设置的错误尝试多次连接数据库,导致数据库账号被锁定,解锁后设定正确的密码即可。
1.4 UltraServer启动无报错,但无法访问IDCP主页
问题分析:在Server集成pasm配置文件 \WEB-INF\classes\security.properties中
local.service.url=192.168.106.83:52045
必须指定为实际IP地址,而不能使用localhost代替。
1.5 UltraIDCPServer启动时卡死在连接MQ部分
问题解答:主要是因为Server部署在多网卡机器,mq配置文件中localhost识别问题,将默认的localhost改成实际的ip即可。
1.6 UltraIDCPServer启动时卡死在MQ成功连接处
问题解答:若UltraIDCPServer启动时提示已成功连接MQ后停止不动,说明连接PASM时出现问题,无法连接到指定的PASM,请核实PASM是否启动正常,若PASM启动正常,需根据IDCP操作文档中关于集成PASM部分重新核实相关配置部分。
1.7 UltraIDCPServer启动时报DBUtil获得连接错误
问题解答:主要是由于停止顺序错误导致的报错,但不影响启动,主要是probe还没停止,先把server给停止了导致的报错,下一个心跳消息发送过来后会自动注册到server上,或者重新启动Server也能解决这个报错。
1.8 UltraIDCPServer启动时报catalina路径错误
问题分析:
在启动IDCPServer时,nohup.out里没有任何启动信息,在logs目录的catalina.out中报jre路径下没有UltraIDCPServer文件或目录;
通常是因为在UNIX的操作系统环境变量中设置了JRE_HOME,UltraIDCPServer启动时执行./startup.sh命令时,打印出的JRE_HOME不是在IDCP的 setclasspath.sh中设置的JDK环境,而是默认的操作系统本身的JRE_HOME,所以导致无法找到指定的进程名UltraIDCPServer,解决方法是在setclasspath.sh中除了指定JAVA_HOME=xxxxx/xx外,还增加一行JRE_HOME=$JAVA_HOME即可。
若提示权限问题,使用chmod赋权。
1.9 UltraIDCPServer启动时包RMI错误
问题解答:是因为在IDCPServer的lib目录下没有找到与本地PASM版本相匹配的PASM的Client的jar包,需要将与本地PASM同一版本的PASM的Client的jar包放到IDCPServer的lib下然后重启Server。
1.10 UltraIDCPServer调整内存大小
Linux系统:
编辑ultrapower/UltraIDCP/UltraIDCPServer/bin/catalina.sh文件修改内存大小。
Windows系统:
编辑ultrapowe\UltraIDCP\UltraIDCPServer\bin\catalina.bat文件修改内存大小。
2 UltraIDCPProbe常见问题
2.1 UltraIDCPProbe启动时报receive错误
问题解答:主要是Probe版本和Server版本不统一导致,一般都是由于升级不彻底或者server已经升级Probe未升级等原因。
2.2 Probe启动报错
问题解答:提示地址被占用,应该是9001内存数据库端口被占用,可以换成9002等
修改方法:在数据库中查找UC_COLLECTOR表,修改9001的端口,然后在配置文件collector_conf.properties中修改后重新启动Probe。
2.3 UltraIDCPProbe启动过程时卡死在连接MQ部分
此时查看server日志发现连接已关闭如下报错:
问题解答:这种情况通常有如下几种原因。
第一种:
可能是由于mq的session个数超过了设定的最大值,默认是10个,这种情况通常是因为server已停止,但probe仍在运行,导致运行着的probe一直发消息给server, server启动后,一直在处理之前probe发送的无用消息,超过了设定的session阀值, probe重新启动时收不到server给出的运行注册的反馈信息,导致Probe启动卡死,处理方法是页面清空mq的消息或者在Server端的MQ配置文件applicationContext-activemq.xml中增加session处理数。
<property name="sessionCacheSize" value="10" />
第二种:
有人对IDCP的数据库表如UC_JOB、UC_FILE_ENV等执行了 for updata操作,但没有执行commit或rollback而导致这些表锁定,Probe发送注册消息时,由于表被锁定,无法读取表中的信息也会出现这个问题,解决方法是查询哪些表被锁,然后解锁后重启Probe。
第三种:
可能是修改时activemq配置文件损坏,重新修改后替换即可。
2.4 HP小机上UltraIDCPProbe自动停止
问题描述:在HP 小机上,Probe运行一段时间自动停止,即使Probe没有启动采集任务空运行,也一样使Probe停止,HP工程师给出的方法如下:
1.在任一目录下 创建.hotspot_compiler文件,保证读写权限。
2.在.hotspot_compiler文件中添加出错的方法名:
如:exclude java/lang/CharacterDataLatin1 toLowerCase (具体的方法名为sun.misc.UpareAndSwapObject)
3. 在应用的启动脚本里添加 -XX:CompileCommandFile=/home/.hotspot_compiler (第2点中新建文件的文件路径)
4. 启动应用,在输出信息里观察有无“excluding compile:”输出信息 表示部署成功。
5.注意采用此办法可能会有性能下降,需要注意。
2.5 Probe采集文件时报Formating data error错误
问题分析:若之前正常解析的文件类型,突然报格式错误,请检查报错的解析文件是否有异常,文件格式是否发送了变化,这种问题通常都是文件格式发生了改变导致的。
2.6 Windows平台上UltraIDCPProbe启动一闪消失
问题解答:在windows平台上,若执行Probe启动文件startUltraIDCPProbe.bat时,一闪消息,说明环境变量设置的有误,打开命令行窗口切换到Probe所在的盘符,然后进入到Probe的bin目录,执行startUltraIDCPProbe.bat文件,会报出类似“不是内部或外部命令”等错误。引起上述报错的原因通常为以下几种,可依次验证测试:
1. 检查setEnv.bat中JDK配置的路径是否正常
2. 检查JDK路径下是否有进程名UltraIDCPProbe
3. 确认是否使用系统管理员权限执行的启动文件startUltraIDCPProbe.bat
4. 确认机器环境系统变量中是否有JAVA_HOME环境变量
5. 确认机器环境用户变量中PATH是否包括设置的JDK环境
6. 将启动文件startUltraIDCPProbe.bat中的内存调小,Probe在启动时会验证内存是否满足启动要求。
3 MQ常见问题
3.1 MQ启动时报do错误
使用./Activemq start命令启动时提示如下:
在MQ的Data下的log日志提示如下:
问题分析:主要是因为JDK中的java进程名称和activemq里配置的进程名不一致导致。
问题解答:在JDK中复制java并重命名为UltraIDCPMQ(默认进程名)
3.2 MQ启动时打印出的JAVA路径不对,无MQ进程
问题分析:
使用命令./activemq start & 启动MQ时,打印出的JDK路径不是在启动文件activemq中配置的路径,而是系统环境变量中默认的JDK路径。
问题解答:
查看在activemq中配置的JDK路径中是否有MQ的默认进程名UltraIDCPMQ,若有并赋予755权限。
3.3 MQ启动时报Broker错误
问题解答:这个错误是由于部分版本引入了 延迟发送的功能引起的, 修改 activemq.xml 文件, 在<broker>中添加 schedulerSupport="false" 属性,禁掉scheduler功能即可;若仍不能解决,请添加hosts表并将网关加上。
样例如下:
<broker xmlns="http://activemq.apache.org/schema/core"
schedulerSupport="false"
brokerName="localhost"
dataDirectory="${activemq.base}/data"
destroyApplicationContextOnStop="true">
<!-- ...... -->
</broker>
4 应用常见问题
4.1 输出NMS
4.1.1 NMS入库时,报重复数据错误
问题解答:当分析了重复文件后,nms有唯一性验证机制,在REPEAT_RAW_DATA表中能查看详细的重复记录。
4.1.2 NMS入库时,有部分资源指标不能入库
DB接口采集数据时,输出到nms,发现有部分指标如TERACNUM 和NOTYACNUM指标不能入资源表,经查询发现报错如下
问题分析:
第一:因为资源表中没有创建BATCHID这个字段,在相应的表中增加这个字段
ALTER TABLE 表名 ADD BATCHID VARCHAR2(255);
哪个表没有BATCHID 就加BATCHID
如:ALTER TABLE CM_RAW_B ADD BATCHID VARCHAR2(255);
第二:日志中报警 propertype=2应该是kpi数据类型定义的不合理
更改数据类型时,需注意若是CM,在RES_DEF_PROPERTY表的PROPERTY_TYPE字段中长整型是3, 字符串是8,整型是2
4.1.3 NMS入库时,报postRawData error
问题分析:这是bizman接口的一个小bug ,需要重新编辑IDCPProbe的lib下的ultranms.jar文件,更新两个class文件分别是BizmanClient$ValidateRunnable.class和BizmanClient.class,更新后的文件需要重新签名,若出现此问题,需联系idcp的支持人员进行相关操作。
4.1.4 NMS入库时报no such object in table 错误
问题解答:由于NMS Server重启后有时重联机制未生效,导致IDCP无法连接NMS,重新启动IDCP Probe。
4.2 NMS入库时报error type8数据错误
问题分析:8数据错误表示上传的数据中的KPI的KBP_CLASS和已经存在的实例的类不一致。
通过日志可知,日志中列出的KBP已存在,在NMS界面上将已存在的资源删除,然后重重采,通常是由于给出的文件不符合规范造成的。
说明:一个指标组定义一个KBP,一个KBP对应一个类资源。
若一个KBP出现在两个类资源中,则NMS会报类型8错误
4.3 关于输出DB
4.3.1 DB接口采集时报错
问题分析:当采集接口是DB,输出也是DB时,在日志中打印“parse结果中没有PM_CPU_RAW的数据表,请检查配置以及厂家原始数据”,原因是源数据库中查询不到指定的数据库记录,说明源数据库中该时间段没有数据
5 其他
5.1 传到FTP的文件都加了后缀.temp
问题分析:IDCP在上传时为避免文件在上传过程中被误删除,在上传过程中将上传的文件自动增加后缀temp,在文件传输完成后自动将文件rename,去掉后缀 .temp。
若在上传完成后没有去掉.temp后缀,但日志提示已经上传成功,通常都是由于FTP权限问题,ftp没有重命名即修改的权限,可以通过命令行方式本地测试ftp权限进行确认。
5.2 解析xml格式的文件时报错
采集的文件样例:
问题分析:文件是xml的窄格式,文件解析时日志中报错格式形如:
valueFrom: [CM-01-10-03-01-01]的KPI[CM-01-10-03-01-01]未能正常获取
查看文件中存在该指标,并在nms的kpi_info里也有这个指标,通过日志查看recorder记录中打印日志如下
record:{UC_DT_FILE_NAME_REG=100240[1-9]03CM0120\d{8}001.M[HDM]I,
KPIID=CM-01-10-03-01-01, VALUE=345,说明配置元数据时解析器选错了,此种文件格式应该选择解析器是“天翼阅读解析器”而不是“标准的XML解析器”
展开阅读全文