bproc-users Mailing List for BProc: Beowulf Distributed Process Space (Page 25)

SourceForge Headquarters 225 Broadway Suite 1600 San Diego, CA 92101 +1 (858) 422-6466

On Wed, Sep 17, 2003 at 12:16:27PM -0400, Nicholas Henke wrote:
> Hello~
> 	I am getting a repeatable oops with either 2.4.20 or 2.4.21 on bproc
> 3.2.5 or 3.2.6. Attached is the oops trace. The oops is not fatal all of
> the time, but left unchecked, it really makes a mess of things. Any
> ideas?

This traceback is 99% networking calls.  The only BProc part is the
call to sock_read.  Plus, it seems to have died in an IRQ or something
like that.  This is almost certainly a network driver or network stack
bug.

Is it repeatable w/ different networking hardware?  (Different
hardware what uses a different driver.)

- Erik

> vmadump: 1.69 Erik Hendriks <er...@he...>
> bproc: Beowulf Distributed Process Space Version 3.2.6
> bproc: (C) 1999-2002 Erik Hendriks <er...@he...>
> do_IRQ: stack overflow: 924
> c024a365 0000039c 00000001 de92d280 de92d280 de92d280 dfba0e00 c02440a4 
>        de92d280 00000000 de92d280 de92d280 de92d280 dfba0e00 debac180 00000018 
>        00000018 ffffff12 c01df575 00000010 00000202 de92d280 fffffff4 c01df5ec 
> Call Trace:   [<c01df575>] skb_release_data [kernel] 0x15 (0xde57ca9c))
> [<c01df5ec>] kfree_skbmem [kernel] 0xc (0xde57cab0))
> [<c01df76e>] __kfree_skb [kernel] 0x11e (0xde57cac0))
> [<c022bcf2>] packet_rcv_spkt [kernel] 0x1b2 (0xde57cacc))
> [<c01df5ec>] kfree_skbmem [kernel] 0xc (0xde57caec))
> [<c01df76e>] __kfree_skb [kernel] 0x11e (0xde57cafc))
> [<c022bcf2>] packet_rcv_spkt [kernel] 0x1b2 (0xde57cb08))
> [<c01e32cf>] dev_queue_xmit_nit [kernel] 0x8f (0xde57cb28))
> [<c01ed560>] qdisc_restart [kernel] 0x60 (0xde57cb48))
> [<e08ff86a>] speedo_start_xmit [eepro100] 0x18a (0xde57cb54))
> [<c01e34ee>] dev_queue_xmit [kernel] 0x14e (0xde57cb70))
> [<c01ed514>] qdisc_restart [kernel] 0x14 (0xde57cb88))
> [<c01e34ee>] dev_queue_xmit [kernel] 0x14e (0xde57cbac))
> [<c01fb7a2>] ip_output [kernel] 0x102 (0xde57cbc4))
> [<c01fbbd0>] ip_queue_xmit [kernel] 0x3c0 (0xde57cbf8))
> [<c01fb7a2>] ip_output [kernel] 0x102 (0xde57cc00))
> [<c01fbbd0>] ip_queue_xmit [kernel] 0x3c0 (0xde57cc34))
> [<c02111be>] tcp_v4_send_check [kernel] 0x6e (0xde57cc98))
> [<c020bc15>] tcp_transmit_skb [kernel] 0x565 (0xde57ccc0))
> [<c01df40f>] alloc_skb [kernel] 0xef (0xde57cd1c))
> [<c020e191>] tcp_send_ack [kernel] 0xc1 (0xde57cd34))
> [<c01deea3>] sock_def_wakeup [kernel] 0x33 (0xde57cd4c))
> [<c020a85a>] tcp_rcv_synsent_state_process [kernel] 0x30a (0xde57cd58))
> [<c01fef70>] tcp_rfree [kernel] 0x0 (0xde57cd6c))
> [<c01def59>] sock_def_readable [kernel] 0x39 (0xde57cd74))
> [<c01fef70>] tcp_rfree [kernel] 0x0 (0xde57cd84))
> [<c020a0c9>] tcp_rcv_established [kernel] 0x429 (0xde57cd90))
> [<c020ab6e>] tcp_rcv_state_process [kernel] 0xbe (0xde57cde0))
> [<c01def59>] sock_def_readable [kernel] 0x39 (0xde57ce04))
> [<c01fef70>] tcp_rfree [kernel] 0x0 (0xde57ce14))
> [<c020a0c9>] tcp_rcv_established [kernel] 0x429 (0xde57ce20))
> [<c01fb7a2>] ip_output [kernel] 0x102 (0xde57ce5c))
> [<c02120f8>] tcp_v4_do_rcv [kernel] 0x38 (0xde57ce74))
> [<c01fbbd0>] ip_queue_xmit [kernel] 0x3c0 (0xde57ce90))
> [<c021264d>] tcp_v4_rcv [kernel] 0x46d (0xde57cea4))
> [<c01e07d4>] skb_checksum [kernel] 0x54 (0xde57ced8))
> [<c0212191>] tcp_v4_do_rcv [kernel] 0xd1 (0xde57cf04))
> [<c021202f>] tcp_v4_checksum_init [kernel] 0x7f (0xde57cf1c))
> [<c021264d>] tcp_v4_rcv [kernel] 0x46d (0xde57cf34))
> [<c01f88c3>] ip_local_deliver [kernel] 0xf3 (0xde57cf58))
> [<c01f606b>] ip_route_input [kernel] 0x3b (0xde57cf60))
> [<c01f8cb5>] ip_rcv [kernel] 0x355 (0xde57cfa0))
> [<c01df5ec>] kfree_skbmem [kernel] 0xc (0xde57cfd0))
> [<c01f88c3>] ip_local_deliver [kernel] 0xf3 (0xde57cfe8))
> [<c01f606b>] ip_route_input [kernel] 0x3b (0xde57cff0))
> [<c01f8cb5>] ip_rcv [kernel] 0x355 (0xde57d030))
> [<c01e37f0>] netif_rx [kernel] 0xc0 (0xde57d03c))
> [<c01df5ec>] kfree_skbmem [kernel] 0xc (0xde57d060))
> [<c01df76e>] __kfree_skb [kernel] 0x11e (0xde57d070))
> [<c022bcf2>] packet_rcv_spkt [kernel] 0x1b2 (0xde57d07c))
> [<c01ed514>] qdisc_restart [kernel] 0x14 (0xde57d0a0))
> [<c01e3e8f>] net_rx_action [kernel] 0x9f (0xde57d0b8))
> [<c01e3c99>] netif_receive_skb [kernel] 0x199 (0xde57d0d8))
> [<c01e3d49>] process_backlog [kernel] 0x79 (0xde57d118))
> [<c010a920>] do_IRQ [kernel] 0x100 (0xde57d134))
> [<c01e3e8f>] net_rx_action [kernel] 0x9f (0xde57d148))
> [<c012137b>] do_softirq [kernel] 0x6b (0xde57d180))
> [<c01e5374>] .text.lock.dev [kernel] 0x8e (0xde57d19c))
> [<c01f606b>] ip_route_input [kernel] 0x3b (0xde57d1bc))
> [<c01fb7a2>] ip_output [kernel] 0x102 (0xde57d1f8))
> [<c01fbbd0>] ip_queue_xmit [kernel] 0x3c0 (0xde57d22c))
> [<c01df76e>] __kfree_skb [kernel] 0x11e (0xde57d24c))
> [<c01e3a22>] net_tx_action [kernel] 0x62 (0xde57d258))
> [<c012137b>] do_softirq [kernel] 0x6b (0xde57d274))
> [<c0117ea0>] do_page_fault [kernel] 0x0 (0xde57d298))
> [<c0108d84>] error_code [kernel] 0x34 (0xde57d2a0))
> [<c02111be>] tcp_v4_send_check [kernel] 0x6e (0xde57d2cc))
> [<c020bc15>] tcp_transmit_skb [kernel] 0x565 (0xde57d2f4))
> [<c01e162c>] skb_copy_datagram_iovec [kernel] 0x4c (0xde57d334))
> [<c01df40f>] alloc_skb [kernel] 0xef (0xde57d350))
> [<c020e191>] tcp_send_ack [kernel] 0xc1 (0xde57d368))
> [<c01df5ec>] kfree_skbmem [kernel] 0xc (0xde57d374))
> [<c0202a75>] tcp_recvmsg [kernel] 0x7e5 (0xde57d38c))
> [<c021eac9>] inet_recvmsg [kernel] 0x39 (0xde57d3d0))
> [<c021eac9>] inet_recvmsg [kernel] 0x39 (0xde57d3f0))
> [<c01dbe91>] sock_recvmsg [kernel] 0x31 (0xde57d41c))
> [<c01dbf98>] sock_read [kernel] 0x88 (0xde57d484))
> [<e0918ab8>] k_read_u_f [bproc] 0x34 (0xde57d4c8))
> [<e0910316>] read_req_file_user [bproc] 0x5e (0xde57d4e8))
> [<e09106d0>] vmadump_read_file [bproc] 0x0 (0xde57d514))
> [<e0907134>] read_user [vmadump] 0x44 (0xde57d518))
> [<e0907eb7>] load_map [vmadump] 0x1ab (0xde57d548))
> [<e090717d>] read_kern [vmadump] 0x2d (0xde57d588))
> [<e0908385>] vmadump_thaw_proc [vmadump] 0x45d (0xde57d5a8))
> [<c01df40f>] alloc_skb [kernel] 0xef (0xde57d5c4))
> [<c01df76e>] __kfree_skb [kernel] 0x11e (0xde57d628))
> [<c0207570>] tcp_clean_rtx_queue [kernel] 0x1b0 (0xde57d630))
> [<c0208ad6>] tcp_data_queue [kernel] 0x2b6 (0xde57d674))
> [<c0207a98>] tcp_ack [kernel] 0x138 (0xde57d6a0))
> [<c020b4be>] tcp_rcv_state_process [kernel] 0xa0e (0xde57d6c4))
> [<c020e191>] tcp_send_ack [kernel] 0xc1 (0xde57d6dc))
> [<c01fef70>] tcp_rfree [kernel] 0x0 (0xde57d6f0))
> [<c020a0c9>] tcp_rcv_established [kernel] 0x429 (0xde57d6fc))
> [<c01e07d4>] skb_checksum [kernel] 0x54 (0xde57d7b4))
> [<c0212191>] tcp_v4_do_rcv [kernel] 0xd1 (0xde57d7e0))
> [<c021202f>] tcp_v4_checksum_init [kernel] 0x7f (0xde57d7f8))
> [<c021264d>] tcp_v4_rcv [kernel] 0x46d (0xde57d810))
> [<c01df5ec>] kfree_skbmem [kernel] 0xc (0xde57d8ac))
> [<c01f88c3>] ip_local_deliver [kernel] 0xf3 (0xde57d8c4))
> [<c01f606b>] ip_route_input [kernel] 0x3b (0xde57d8cc))
> [<c011d016>] ll_copy_to_user [kernel] 0x46 (0xde57d8dc))
> [<c011d016>] ll_copy_to_user [kernel] 0x46 (0xde57d8fc))
> [<c011d016>] ll_copy_to_user [kernel] 0x46 (0xde57d90c))
> [<c011d016>] ll_copy_to_user [kernel] 0x46 (0xde57d92c))
> [<c01e0fb8>] memcpy_toiovec [kernel] 0x38 (0xde57d950))
> [<c01e162c>] skb_copy_datagram_iovec [kernel] 0x4c (0xde57d974))
> [<c0201e5e>] cleanup_rbuf [kernel] 0xae (0xde57d994))
> [<c0201e5e>] cleanup_rbuf [kernel] 0xae (0xde57d9b4))
> [<c0202a75>] tcp_recvmsg [kernel] 0x7e5 (0xde57d9cc))
> [<c021eac9>] inet_recvmsg [kernel] 0x39 (0xde57da10))
> [<c021eac9>] inet_recvmsg [kernel] 0x39 (0xde57da30))
> [<c01dbe91>] sock_recvmsg [kernel] 0x31 (0xde57da5c))
> [<c01fefbe>] tcp_poll [kernel] 0x2e (0xde57da7c))
> [<c01dbf98>] sock_read [kernel] 0x88 (0xde57dac4))
> [<e0918ab8>] k_read_u_f [bproc] 0x34 (0xde57db08))
> [<e0910375>] read_req_file_kern [bproc] 0x2d (0xde57db58))
> [<e0911c32>] do_recv [bproc] 0x522 (0xde57db78))
> [<c01193cc>] schedule [kernel] 0x48c (0xde57dbc0))
> [<c0118e27>] schedule_timeout [kernel] 0x17 (0xde57dc14))
> [<c02120f8>] tcp_v4_do_rcv [kernel] 0x38 (0xde57dc34))
> [<c0201e5e>] cleanup_rbuf [kernel] 0xae (0xde57dc64))
> [<c0202a75>] tcp_recvmsg [kernel] 0x7e5 (0xde57dc7c))
> [<c021eac9>] inet_recvmsg [kernel] 0x39 (0xde57dce0))
> [<c01dbe91>] sock_recvmsg [kernel] 0x31 (0xde57dd0c))
> [<c021eb15>] inet_sendmsg [kernel] 0x35 (0xde57dd2c))
> [<c01dbe3c>] sock_sendmsg [kernel] 0x6c (0xde57dd40))
> [<c01dbf98>] sock_read [kernel] 0x88 (0xde57dd74))
> [<e09106d0>] vmadump_read_file [bproc] 0x0 (0xde57dda4))
> [<e09106b4>] vmadump_write_file [bproc] 0x0 (0xde57dda8))
> [<e0918ab8>] k_read_u_f [bproc] 0x34 (0xde57ddb8))
> [<c01261c3>] collect_signal [kernel] 0x93 (0xde57de0c))
> [<e0912236>] recv_process [bproc] 0x6a (0xde57de58))
> [<e0918be1>] k_close [bproc] 0xd (0xde57df38))
> [<e0917b70>] do_recv_proc_stub [bproc] 0x184 (0xde57df58))
> [<e090c319>] bproc_kernel_thread [bproc] 0x2d (0xde57dfb8))
> 
> bproc: connect: connect to 192.168.2.4:46219 failed; errno=111

2001	Jan	Feb	Mar	Apr	May	Jun	Jul	Aug	Sep	Oct (25)	Nov	Dec (22)
2002	Jan (13)	Feb (22)	Mar (39)	Apr (10)	May (26)	Jun (23)	Jul (38)	Aug (20)	Sep (27)	Oct (76)	Nov (32)	Dec (11)
2003	Jan (8)	Feb (23)	Mar (12)	Apr (39)	May (1)	Jun (48)	Jul (35)	Aug (15)	Sep (60)	Oct (27)	Nov (9)	Dec (32)
2004	Jan (8)	Feb (16)	Mar (40)	Apr (25)	May (12)	Jun (33)	Jul (49)	Aug (39)	Sep (26)	Oct (47)	Nov (26)	Dec (36)
2005	Jan (29)	Feb (15)	Mar (22)	Apr (1)	May (8)	Jun (32)	Jul (11)	Aug (17)	Sep (9)	Oct (7)	Nov (15)	Dec

bproc-users Mailing List for BProc: Beowulf Distributed Process Space (Page 25)

bproc-users — General discussion about BProc.