摘要:采集稅源數據,對加強稅務監控有著重要意義。本文基于稅控收款機標準GB18240.1~GB18240.6,以使用Linux 操作系統、并口打印機的電子收款機為平臺,以采集銷售明細數據并在打印***上增加稅控碼為目的,提出了一種利用內核打印驅動模塊修改和netlink socket 技術實現的稅源數據采集方案。
1. 引言
稅收是國家財政的重要組成部分,但是在稅收領域依法納稅意識淡薄,偷稅逃稅現象依然比較嚴重,尤其是對財務核算不健全的*,稅務機關難以實施有效監控。這種現狀不但嚴重擾亂正常的經濟秩序,而且導致國家稅收大量流失。為了進一步加強稅源監控,堵塞稅收漏洞,減少稅收流失,國家先后出臺了稅控收款機標準GB18240.1~GB18240.6 等六個部分,建立了以電子收款機+稅控器+稅控IC 卡+稅控收款機管理系統的基本工作模式,明確了以票控稅的基本原則。要求每當電子收款機上完成一筆銷售時,收集其銷售明細數據,將其交由稅控器記錄統計,并將稅控器依據銷售明細數據生成的稅控碼添加到銷售小票上,以此來表示此筆銷售已被稅務機關記錄。本文所討論的便是一種從電子收款機采集稅源數據即銷售明細數據的解決方案。
因為電子收款機使用的操作系統有很多種,對于不同操作系統采集稅源數據的方案都有所不同。本文具體討論Linux 操作系統下使用并口打印機的電子收款機的稅源數據采集方案,使用串口打印機的情形亦可參照。Windows 操作系統下的采集方案請查閱參考文獻。
2 方案設計
Linux 系統將打印機設備視為文件,通過對該文件的寫操作來實現打印功能。通常情況下,對文件系統的監控是通過系統調用劫持來實現的。但是1) Linux 2.6 版本之后的內核,系統調用表的地址已經不能導出,系統調用劫持的實現難度加大;2) 劫持 sys_write 系統調用后,所有的文件寫入操作都會被劫持,對系統的性能有較大影響;3) 修改后的打印數據必須存入銷售軟件進程的用戶內存空間,才能調用文件驅動模塊write 函數將其打印出來。而侵入銷售軟件進程將大大降低系統的獨立性和可靠性。
基于以上考慮,選擇了通過修改內核打印驅動模塊來實現對電子收款機上銷售小票打印數據的截獲。
然而設備驅動運行于內核態,具有很大的局限性,如不能在終端上打印、不能做大延時的操作、不能使用C 的庫函數等等,難以滿足稅源數據采集系統的功能需要。所以需要一個用戶態的守護進程常駐內存,對內核態采集到的數據進行處理。
這樣整個稅源數據采集系統可以分為如下兩個部分:
1)內核空間
在 Linux 并口打印驅動模塊中增加一個攔截函數,替換原有的lp_write 函數,負責將打印數據發送給用戶態的守護進程,并在收到守護進程返回的新的打印數據之后,將其打印出來。
2)用戶空間
實現一個常駐內存的用戶態守護進程,負責接收內核截取到的打印數據,并在進行處理后回送給內核。
圖 1 Linux 電子收款機稅源數據采集系統框架圖
3 關鍵實現技術
實現上述設計的關鍵在于解決“內核態與用戶態的進程間通信”、“攔截并口打印驅動的write 操作”、“打印進程的阻塞及喚醒”三個問題。
3.1 內核態與用戶態的進程間通信
本方案這種分為內核空間和用戶空間兩部分的結構設計,首先需要解決的就是內核態與用戶態的進程間通信(interprocess communicatiON, IPC)。而在各種IPC 方法中,最適合此處設計需要的就是netlink socket 技術。
Netlink socket 最早出現于Linux 2.2 版的內核中,并在2. 4 版以后的版本中作為主要的內核與用戶空間的通信方式而被廣泛使用。相對于系統調用、ioctl 以及proc 文件系統等IPC方法而言,它具有簡單易用、異步通信(適合大數據傳輸)、無編譯依賴(可模塊實現)、支持多播、支持內核發起會話等優點。其中“異步通信、無編譯依賴、支持內核發起會話”
這三點正是本系統需要的關鍵特性,也是選用該技術的最主要原因。
Netlink socket 的通信依據是一個對應于進程的標識,一般定為該進程的ID。當通信的一端處于中斷過程時,該標識為0。當使用netlink socket 進行通信,通信的雙方都是用戶態進程,則使用方法類似于消息隊列。但通信雙方有一端是中斷過程,使用方法則不同。Netlinksocket 的最大特點是對中斷過程的支持,它在內核空間接收用戶空間數據時不再需要用戶自行啟動一個內核線程,而是通過另一個軟中斷調用用戶事先指定的接收函數,這樣就可以保證數據接收的實時性。
當 netlink socket 用于內核空間與用戶空間的通信時,在用戶空間的創建方法和一般套接字使用類似,但內核空間的創建方法則不同。在內核模塊中使用 netlink_kernel_create()函數創建socket 時需要指明接收函數。之后用戶空間進程創建socket,并將通信標識(一般是該進程的ID)發送到內核空間。這樣內核空間獲得了用戶空間進程的通信標識后就可以進行通信了。
3.2 攔截并口打印驅動的write 操作
Linux 操作系統將設備看作文件,每個Linux 的設備驅動程序都定義了一個 file_operation結構,結構中的各個成員是驅動模塊中定義函數的指針, 通過這些函數具體實現對文件的open, read, write 等操作。因此,只要將并口打印驅動模塊的file_operation 結構常量——lp_fops的write 成員的值由lp_write 替換為指向攔截函數的指針就能實時地攔截并口打印機的打印操作。
這里需要實現兩個關鍵函數:
1)lp_write_from_kernellp_write_from_kernel 函數實現內核空間的緩沖區數據的打印功能。來自守護進程的修改后打印數據是保存在內核空間的,因此不能調用原有的lp_write 函數進行打印。具體的實現可依照lp_write,只要將調用copy_from_user 函數的地方改為調用memcpy 函數即可。
2)lp_interceptlp_intercept 函數函數用于替換lp_write,攔截并口打印驅動的write 操作,實現打印數據截取與修改:當電子收款機的銷售軟件調用并口打印驅動的write 函數時,將寫緩沖區的打印數據發送給守護進程;待守護進程返回修改后的打印數據(附加了稅控碼),調用lp_write_from_kernel 將其打印出來。
3.3 打印進程的阻塞及喚醒
當收到電子收款機的銷售軟件向并口打印機發出的打印請求時,內核態的并口打印模塊需在將數據發送給用戶態的守護進程之后阻塞打印請求進程。并且,當且僅當接收到守護進程的返回數據時,才會喚醒打印請求進程完成打印。
如何實現打印進程的阻塞及喚醒就是最后一個關鍵技術點。因為電子收款機只配備一個打印機、不需要復雜的互斥技術,所以只要使用“簡單睡眠”就可以達到這個目標——通過使用下面的宏或函數:
4 小結
本文詳細說明了如何修改可加載的內核驅動模塊實現并口打印數據的攔截與修改,如何運用netlink socket 技術實現內核與用戶進程的通訊,以及進程的阻塞及喚醒技術。并在此基礎上提出了一種利用上述技術實現的Linux 電子收款機稅源數據采集方案。此方案在無需改變電子收款機原有設計架構的條件下,實現了稅源數據采集及***稅控碼添加功能,經實際環境測試可行,符合對稅源數據采集系統的整體要求。