牛骨文教育服务平台(让学习变的简单)
博文笔记

kkjcre1p: unable to spawn jobq slave process的排查思路

创建时间:2014-11-13 投稿人: 浏览次数:100

才下火车,接到电话说某用户的一套核心RAC一个节点重启,心急火燎的赶回家收LOG。

 

检查相关LOG,OCSSD中无驱逐记录。

 

ALERT日志中,11月11日下午4点开始报错,一直延续到DOWN机时间,进程有JOB,M000等等

Tue Nov 11 16:29:26 BEIST 2014
kkjcre1p: unable to spawn jobq slave process
Tue Nov 11 16:29:26 BEIST 2014
Errors in file /oracle/admin/newptdb/bdump/newptdb1_cjq0_3469346.trc:

Process J000 died, see its trace file
Tue Nov 11 16:29:33 BEIST 2014

 

这个就没什么好争议的了,

1.操作系统资源耗尽

2. job_queue_processes设置过小。

3.参数session和processes设置的会话数及连接数不能满足业务需求。

4. 参数pga_aggregate_target被耗尽。

 

第一点暂时无法判断,第二点排除,

第三点:检查相关时间点AWR,问题出来了

              Snap Id      Snap Time      Sessions Curs/Sess
            --------- ------------------- -------- ---------
Begin Snap:      8012 11-Nov-14 16:00:19     1,986     221.8
  End Snap:      8013 11-Nov-14 17:00:04     1,994     225.0
   Elapsed:               59.76 (mins)
   DB Time:              429.24 (mins)

 

pga_aggregate_target          6442450944
processes                     2000
remote_listener               LISTENERS_NEWPTDB
remote_login_passwordfile     EXCLUSIVE
service_names

 

又是一起PROCESS超限引起的悲剧,扩大1节点的process参数避免故障。

 

 

声明:该文观点仅代表作者本人,牛骨文系教育信息发布平台,牛骨文仅提供信息存储空间服务。