<br><br><div class="gmail_quote">On Wed, Apr 6, 2011 at 2:06 AM, W.C.A. Wijngaards <span dir="ltr"><<a href="mailto:wouter@nlnetlabs.nl">wouter@nlnetlabs.nl</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div class="im"><br>
> When this issue happens, I can't communicate with unbound via<br>
> unbound-control and it will never resolve anything. I can cleanly shut<br>
> it down and start a new instance and it will behave exactly the same.<br>
> The only solution I've found is to restart the VPS. I have another VPS<br>
> from the same provider which is setup almost identically and it has<br>
> never had this issue.<br>
<br>
</div>So, it is somehow unique to that machine.  Can you see in 'top' what<br>
unbound is doing?  (is it using cpu, 100% in a busy loop?, it is not<br>
responding to unbound-control, so it must be completely hosed somehow)<br></blockquote><div><br>Sorry I meant to include that in my original email. It does not appear to be in a busy loop; top shows 0% CPU usage for unbound. <br>
</div><div> </div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
netstat -su may be interesting (packet counters for UDP).<br></blockquote><div><br>Okay, I'll remember to take a look, see if the packets are sitting unread.<br> </div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<br>
Another thing you can do is use 'gcore' to make a coredump of the<br>
'failed' unbound process.  (and then kill it and start a new unbound for<br>
your production).  Then you can use 'gdb' and your compiled unbound<br>
executable to read the core image and produce a stack backtrace what it<br>
is doing.<br></blockquote><div class="im"><br>I'm not familiar with "gcore" can I just configure ulimit to allow core dumps then send the ABRT signal? I'll make sure I install the debug libraries so I get something useful there. The weird thing is restarting unbound won't fix it. I really have to restart the machine (so it's likely something else is really broken).<br>

<br>
</div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Well it should respond to the unbound-control utility.  If it does not<br>
this means it is somehow no longer processing the main loop, or that<br>
network traffic does not reach it.<br></blockquote><div><br>Interesting, all the requests should be done over localhost. My resolv.conf only contains the line "nameserver 127.0.0.1" and doing "dig @localhost <a href="http://foo.com">foo.com</a>" also fails. I can check the routing table and do the obvious pings and see if those at least work.<br>
<br>I did run strace last time this happened, but I wasn't really sure what to look for; I was really just checking that it was doing something and not just hanging. Next time I'll capture the output and try and take a better look. If it matters, this is on an amd64 Debian GNU/Linux Squeeze (6.0) system.<br>
<br>Thanks for the tips,<br>--Will<br></div></div>