Home / Blog

Viết thêm về IEC-61511: Phần 2 - Các khái niệm quan trọng


Hazard (mối nguy): được định nghĩa trong ISO45001 (3.19) đó là Nguồn có khả năng gây thương tích và bệnh tật. (Source with potential to cause injury and ill health). Các mối nguy có thể bao gồm nguồn có khả năng gây hại, hoặc tình huống nguy hiểm, hoặc hoàn cảnh có khả năng dẫn đến việc tiếp xúc gây thương tích và bệnh tật. Mối nguy trong công nghiệp có thể là độ cao, điện, áp suất, nhiệt độ. Mối nguy luôn tồn tại.

Hậu quả (Consequence): là kết quả của một sự kiện ảnh hưởng đến mục tiêu (is outcome of an event affecting objectives). Hậu quả có thể là cháy nổ nhà máy, chết người, chấn thương, ô nhiễm môi trường.

Rủi ro (Risk): Rủi ro là tác động của sự không chắc chắn (ISO45001, 3.20: “Risk is effect of UNCERTAINTY”). Rủi ro là kết hợp của xác suất xảy ra các sự kiện nguy hiểm và mức độ nghiêm trọng gây ra bởi sự kiện đó. Nói một cách nôm na là Rủi ro = Hậu quả x Khả năng xảy ra (Consequence x Likelihood)

Ma trận rủi ro (Risk Matrix): là ma trận xác định mức độ rủi ro (Cao, trung bình, thấp) với trục hoành là xác xuất hay khả năng xảy ra (likelihood/probability) và trục tung là Hậu quả.

Lúc tôi đi thực tập ở nhà máy 20 năm trước, có những bác thợ điện rất tự hào với việc thực hiện thao tác bảo trì và sửa chữa với nguồn điện sống, tức là không cắt điện. Sự sống còn của các bác phụ thuộc rất lớn vào khả năng xảy ra giật điện, do công việc lúc này có rủi ro rất Cao (High Risk). Trường hợp này muốn hạ rủi ro xuống mức thấp hơn thì ta phải cách ly nguồn điện, nhưng nếu cách ly mà lỡ có ai đó bật nguồn trở lại trong lúc thợ điện đang thao tác thì sao? Viết đến đây tôi nhớ lại tai nạn lao động xảy ra năm trước khi các công nhân bảo trì máy nghiền, và trong lúc đó máy hoạt động trở lại. Lúc này cần loại trừ luôn mối nguy thông qua quy trình lock out tag out (LOTO), gắn khóa cứng.

Các lớp bảo vệ độc lập

Trong công nghiệp, vì quy trình sản xuất luôn tồn tại các mối nguy như áp suất cao, dầu và khí dễ cháy nổ, điện, hóa chất độc hại,… nên việc kiểm soát mối nguy được đề cao. Trong ngữ cảnh của IEC-61511 là tiêu chuẩn về hệ thống thiết bị an toàn cho công nghiệp quy trình, việc kiểm soát các mối nguy thông qua các lớp bảo vệ an toàn (protection layers). Hình 9 (firgure 9, clause 9.3.1) có diễn giải các lớp bảo vệ trong đó hệ thống SIS đóng vai trò ngăn ngừa (prevention) và giảm thiểu (mitigation). Ở trung tâm là quy trình công nghệ nơi có chứa các mối nguy (hazards) và quy trình công nghệ này được điều khiển bởi hệ thống điều khiển cơ bản (Basic Process Control System – BPCS). Khi có sự cố bất thường xảy ra như quá áp, quá đo mức, hệ thống An toàn thiết bị (SIS) vào cuộc. SIS sẽ đóng các van, kích hoạt hệ thống để đưa công nghệ về lại trang thái an toàn, ngăn ngừa sự cố (prevention). Khi quy trình không được ngăn ngừa, lúc này sự cố mất an toàn xảy ra, SIS sẽ đóng vai trò giảm thiểu (mitigation). Đây là các lớp bảo vệ giúp cho quá trình công nghệ được diễn ra an toàn cho con người, môi trường và nhà máy. IEC-61511 đề cập chủ yếu đến hệ thống an toàn thiết bị SIS. Các lớp bảo vệ này độc lập với nhau trong việc giảm thiểu rủi ro bằng cách điều khiển, ngăn ngừa và giảm thiểu.

A diagram of fire safety

AI-generated content may be incorrect.

Ta sẽ xem xét các khái niệm nền tảng quan trọng của IEC-61511. Các thuật ngữ này được lặp đi lặp lại và dễ bị sử dụng một cách nhầm lẫn, và tệ hơn là khái niệm chưa được hiểu một cách chính xác nhất

Đánh giá rủi ro và nguy cơ (H&RA - Hazard and Risk Assessment): H&RA được thực hiện để xác định các yêu cầu an toàn tổng thể. Mục tiêu của H&RA là xác định các nguy cơ, sự kiện nguy hiểm, chuỗi sự kiện, rủi ro quy trình, yêu cầu giảm thiểu rủi ro và các chức năng an toàn, bao gồm cả SIF, cần thiết. H&RA nên được ghi lại rõ ràng để đảm bảo khả năng truy xuất nguồn gốc. Trước khi diễn ra SIL workshop, các workshop an toàn khác như HAZID, HAZOP sẽ được tiến hành.

Chức năng an toàn được trang bị (SIF - Safety Instrumented Function): một SIF bao gồm vốn dĩ bao gồm một cảm biến, bộ điều khiển logic (hoạt động như bộ điều khiển) và một phần tử cuối cùng (bao gồm một bộ truyền động, hay van). SIF được xuất phát từ các chức năng an toàn rộng hơn nhằm đạt được hoặc duy trì trạng thái an toàn cho một quy trình đối với một sự kiện nguy hiểm cụ thể. Ví dụ, một chức năng an toàn có thể là "ngăn áp suất trong bình #ABC456 vượt quá 100 bar". Một SIF xuất phát từ điều này có thể là "đóng van #XY123 trong vòng 5 giây khi áp suất trong bình #ABC456 đạt 100 bar". Một SIF được thực hiện bởi một hệ thống an toàn được trang bị cụ thể (SIS). SIS là một hệ thống được trang bị được sử dụng để thực hiện một hoặc nhiều SIF và bao gồm bất kỳ sự kết hợp nào của cảm biến, bộ điều khiển và các phần tử cuối cùng. Mỗi SIF có một mức độ toàn vẹn an toàn (SIL) liên quan. Mục đích chính của SIF là góp phần giảm thiểu rủi ro cần thiết (được thể hiện qua hệ số giảm thiểu rủi ro – RRF Risk Reduction Factor) để đáp ứng rủi ro có thể chấp nhận được liên quan đến một sự kiện nguy hiểm. SIF, cùng với các lớp bảo vệ khác, đảm bảo rằng tần suất tai nạn do hỏng hóc các chức năng an toàn đủ thấp.

Lưu ý: khi nói về một chức năng an toàn, ví dụ như đóng van SDV-xxxx để ngăn ngừa quá áp từ giếng khai thác ảnh hưởng đến các đường ống sản xuất thì bạn đang nói đến SIF, và đừng nhầm lẫn với SIL chỉ cấp độ của chức năng an toàn này.

Mức độ toàn vẹn an toàn (SIL - Safety Integrity Level): SIL là một khái niệm cơ bản khác. Nó đại diện cho thước đo hiệu suất được yêu cầu bởi một chức năng an toàn được trang bị (SIF). SIL gắn liền với xác suất hỏng hóc trung bình theo yêu cầu (PFDavg) và tần suất trung bình của các hỏng hóc nguy hiểm cho mỗi SIL. SIL có cấp độ từ 1 đến 4, với SIL 4 đại diện cho mức độ toàn vẹn an toàn cao nhất. SIL yêu cầu cho một SIF nên được thiết lập dựa trên SIL workshop, mà ở đó hội đồng sẽ sử dụng phương pháp Các lớp bảo vệ độc lập để phân tích SIF cần đạt được SIL là bao nhiêu để có thể bảo vệ cho quy trình công nghệ.

Hệ thống an toàn được trang bị (SIS - Safety Instrumented System): SIS là một hệ thống được thiết kế để thực hiện một hoặc nhiều chức năng an toàn được trang bị (SIF). Nó dựa trên việc sử dụng công nghệ điện/điện tử/điện tử lập trình được. Một SIS bao gồm các cảm biến, bộ giải logic và phần tử cuối cùng. Chuỗi tiêu chuẩn IEC 61511 đưa ra các yêu cầu cho đặc tả, thiết kế, lắp đặt, vận hành và bảo trì SIS để nó có thể được tin tưởng một cách tự tin để đạt được hoặc duy trì trạng thái an toàn của quy trình công nghệ. Trong dầu khí, hệ thống BPCS và SIS được gọi chung là ICSS (Integrated Control and Safety System.)

Vòng đời an toàn SIS (SIS Safety Lifecycle): Đây là một khung nền tảng cơ bản hỗ trợ việc áp dụng chuỗi tiêu chuẩn IEC 61511. Nó đề cập đến tất cả các giai đoạn từ khái niệm và thiết kế ban đầu đến triển khai, vận hành, bảo trì và ngừng hoạt động. Một vòng đời an toàn SIS kết hợp các yêu cầu của chuỗi tiêu chuẩn IEC 61511 phải được xác định trong quá trình lập kế hoạch an toàn. Hình 7 trong IEC 61511-1 và Hình F.2 trong IEC 61511-2 minh họa vòng đời này. Việc quản lý vòng đời an toàn hệ thống SIS có một mục tiêu là giữ cho hệ thống có độ tin cậy gần như lúc thiết kế cho đến khi kết thúc, ví dụ như thiết bị được chứng nhận SIL-2 thì duy trì được SIL-2 trong suốt quá trình sử dụng.

Các loại sự cố hư hỏng (failure)

Vì mục đích chính của SIF là góp phần giảm thiểu rủi ro cần thiết (được thể hiện qua hệ số giảm thiểu rủi ro – RRF Risk Reduction Factor) để đáp ứng rủi ro có thể chấp nhận được (ALARP) liên quan đến một sự kiện nguy hiểm, bất cứ hư hỏng nào như cảm biến, bộ điều khiển và chấp hành trong SIF đều gây ra nguy hiểm cho quá trình công nghệ.

Khái niệm về sự cố hư hỏng (failure) được định nghĩa là sự chấm dứt khả năng của một đơn vị chức năng (functional unit) trong việc thực hiện một chức năng yêu cầu (required function). Các sự cố hư hỏng có thể xảy ra trong phần cứng hoặc hệ thống bao gồm cả phần cứng hoặc phần mềm.

  • Sự cố hư hỏng ngẫu nhiên (random failures): là các sự cố hư hỏng xảy ra một cách không thể đoán trước, thường do sự hao mòn tự nhiên hoặc các yếu tố bên ngoài như nhiễu điện từ.
  • Sự cố hư hỏng hệ thống (systematic failures): là các sự cố hư hỏng xảy ra do lỗi trong thiết kế, sản xuất, vận hành hoặc bảo trì hệ thống.
  • Sự cố hư hỏng an toàn (a safe failure)sự cố hư hỏng (failure) không có khả năng đặt hệ thống liên quan đến an toàn vào trạng thái nguy hiểm hoặc trạng thái không hoạt động. Ví dụ: Một cảm biến nhiệt độ bị hỏng nhưng hệ thống vẫn duy trì ở trạng thái an toàn, không gây nguy hiểm.
  • Sự cố hư hỏng nguy hiểm (a dangerous failure) cản trở hoặc làm vô hiệu hóa một hành động an toàn cụ thể, ví dụ sự cố hỏng cảm biến áp suất gây ra mất tín hiệu báo quá áp và làm vô hiệu hóa việc đóng các van an toàn. Một sự cố được coi là "nguy hiểm" chỉ liên quan đến một SIF cụ thể
  • Sự cố hư hỏng phụ thuộc (dependent failure) là các sự cố hư hỏng xảy ra do một yếu tố chung tác động lên nhiều thành phần của hệ thống. Hai sự kiện A và B được coi là phụ thuộc nếu P(A và B) > P(A) × P(B). Việc xem xét các sự cố phụ thuộc giữa các lớp bảo vệ là rất quan trọng, vì nó liên quan đến việc voting và một khái niệm khác là Hardware Fault Tolerance (HFT)
    Các sự cố phụ thuộc bao gồm sự cố do nguyên nhân chung.
  • Sự cố hư hỏng nguyên nhân chung (common cause failure)sự cố hư hỏng (failure) do một hoặc nhiều sự kiện, gây ra hỏng hóc trùng hợp của hai hoặc nhiều kênh riêng biệt trong hệ thống đa kênh, dẫn đến hỏng hóc hệ thống. Ví dụ: Một sự kiện thời tiết cực đoan làm hỏng đồng thời nhiều cảm biến trong hệ thống.

Với hư hỏng độc lập, xác suất là hàm tổng của xác suất các thành phần P(A) + P(B); với hư hỏng phụ thuộc, như đã đề cập trước đó xác suất hư hỏng sẽ lớn hơn P(A) x P(B). Khi tính PFDavg cho SIF, ta dùng hàm cộng vì PFDavg thành phần (cảm biến, bộ điều khiển, chấp hành) là các sự kiện không phụ thuộc vào nhau. Tuy nhiên, khi ta có chức năng Voting NooM (N out of M) thì các sự kiện N phụ thuộc vào nhau vì chúng kết hợp với nhau để ra quyết định, ta sẽ thấy công thức PFDavg không phải là hàm cộng nữa. Ta hãy chi tiết hóa hơn 1 chút:

Quy tắc Cộng trong Xác Suất

Quy tắc cộng được sử dụng khi tính xác suất của các sự kiện riêng biệt, tức là những sự kiện không phụ thuộc lẫn nhau. Nếu hai sự kiện A và B không giao nhau, tức là không có phần chung, thì xác suất tổng quát được tính bằng: P(A∪B)= P(A) + P(B)

Ví dụ: Giả sử bạn có một hệ thống gồm cảm biến, bộ xử lý logic, và cơ cấu chấp hành, mỗi phần tử có xác suất hỏng (PFD) riêng lẻ. Vì các phần tử này làm việc độc lập, xác suất tổng PFD của hệ thống được cộng lại.

Điều này giải thích tại sao PFD của một vòng SIF là một tổng chứ không phải phép nhân—các phần tử riêng lẻ đều có thể gây sự cố hư hỏng cho hệ thống.

Quy tắc Nhân trong Xác Suất

Quy tắc nhân được sử dụng khi xác suất của các sự kiện có liên quan đến nhau, tức là các sự kiện phụ thuộc. Nếu ta muốn tính xác suất đồng thời xảy ra của hai sự kiện độc lập, ta sử dụng công thức: P(A∩B)=P(A)×P(B)

Ví dụ: Giả sử ta có một hệ thống có kiến trúc 1oo2 (One-Out-Of-Two, tức là chỉ cần một phần tử hoạt động để hệ thống không bị lỗi). Xác suất hỏng của hệ thống chỉ xảy ra khi cả hai phần tử cùng hỏng, nên PFD được tính bằng phép nhân:

A close up of a logo

AI-generated content may be incorrect.

Tương tự, với cấu hình 2oo3 (Two-Out-Of-Three), công thức trở nên phức tạp hơn và có dạng:

A black text on a white background

AI-generated content may be incorrect.

Tổng quan, công thức tính 2ooM như sau:

 

Hardware Fault Tolerance, Voting và PFD

Cho cảm biến với giá trị PFD = 1.5 × 10³, tính toán PFD trong các trường hợp 1oo1, 1oo2, 2oo2, 2oo3

Kết quả sẽ ra được như sau:

  • Cấu hình 1oo1 có PFD cao nhất, dễ gặp lỗi nhất.
  • Cấu hình 1oo2 và 1oo3 giúp giảm đáng kể PFD, nâng cao độ tin cậy.
  • Cấu hình 2oo2 làm tăng PFD do yêu cầu cả hai phần tử phải hoạt động.
  • Cấu hình 2oo3 mang lại độ tin cậy cao hơn so với 1oo1 và 2oo2, nhưng vẫn đảm bảo an toàn

Ở đây ta thấy được cấu hình 1oo2, 1oo3, 2oo3 đều có PFD thấp hơn rất nhiều so với các cấu hình 1oo1, 2oo2. Tại sao 1oo2 lại có xác suất hư hỏng khi yêu cầu PFD thấp hơn rất nhiều (gần 1000 lần) so với 1oo1; tương tự như vậy với 2oo2 và 2oo3?

Câu trả lời có thể nằm ở khái niệm khả năng chịu lỗi phần cứng (Hardware Fault Tolerance – HFT). Do IEC-61511 không có định nghĩa cụ thể, ta hãy xem xét định nghĩa trong IEC-61508: một khả năng chịu lỗi phần cứng là N có nghĩa là N + 1 lỗi (faults) có thể gây ra mất chức năng an toàn (safety function).

Nói một cách đơn giản hơn, một khả năng chịu lỗi phần cứng (hardware fault tolerance) là N chỉ ra rằng hệ thống có thể chịu được N lỗi và vẫn thực hiện chức năng an toàn dự kiến của nó. Tuy nhiên, nếu xảy ra N + 1 lỗi, chức năng an toàn có thể bị mất.

Với cấu hình 1oo1, nếu xảy ra 1 lỗi hệ thống sẽ mất tính năng an toàn, vì thế có thể nói HFT trong trường hợp này là 0 (đơn giản là 1-1=0)

Với cấu hình 1oo2, nếu xảy ra 1 lỗi, hệ thống vẫn còn 1 thiết bị để hoạt động, vì thế có thể nói HFT trong trường hợp này là 1 (đơn giản là 2-1=1)

Ngữ cảnh của IEC-61508 là tiêu chuẩn cho các nhà sản xuất thiết bị điện, điện tử hoặc bộ xử lý liên quan đến hệ thống an toàn. Trong khi đó, IEC-61511 là tiêu chuẩn cho ngành sản xuất theo quy trình công nghệ. Do đó, trong ngữ cảnh IEC-61511, HFT còn có ý nghĩa quan trọng hơn và bao quát hơn liên quan đến thành phần phần cứng và kiến trúc hệ thống SIS hoặc các hệ thống con của nó để tiếp tục thực hiện một Chức năng an toàn SIF khi có một hoặc nhiều lỗi phần cứng nguy hiểm xảy ra.

Các khía cạnh chính đóng góp vào ý nghĩa này bao gồm:

  • Dự phòng (Redundancy): HFT chủ yếu đạt được thông qua dự phòng trong các thành phần hoặc hệ thống con phần cứng. Mức độ dự phòng được định lượng bằng số HFT (ví dụ: HFT=0, 1 hoặc 2), cho biết số lượng lỗi tối thiểu có thể xảy ra mà không gây mất chức năng an toàn. Đây là ý nghĩa của việc voting MooN mà chúng ta hay thảo luận.
  • Tính phụ thuộc vào SIL (SIL Dependency): HFT tối thiểu bắt buộc được liên kết trực tiếp với Mức Độ Toàn Vẹn An Toàn (SIL) của SIF. SIL càng cao đòi hỏi HFT càng lớn để đạt được mức giảm rủi ro cần thiết. Như đã quan sát trên bảng so sánh PFD, các phương pháp 1oo2, 2oo3 tương ứng HFT=1 có PFD thấp hơn rất nhiều so với 1oo1 và 2oo2 tương ứng với HFT=0, đồng nghĩa với việc các cấu hình 1oo2 và 2oo3 có SIL cao hơn. Trên thực tế, khi 1 SIF có yêu cầu SIL3, cấu hình 2oo3 hay được sử dụng.

Câu hỏi ở đây là trong cấu hình 2oo3; khi một thiết bị bị hư hỏng thì lúc này kết quả sẽ là gì? Là đầu ra của 2oo2 hay 1oo2? Hãy nhìn lại bảng tính PFD, nếu ta chấp nhận 2oo2, PFD lúc này sẽ giảm đi rất nhiều (do HFT=0) và có thể ảnh hưởng đến SIL của chức năng an toàn đó do PFD thành phần đã thay đổi, ví dụ SIF đang SIL3 có thể chuyển thành SIL2. Quyết định hợp lý nhất vẫn là duy trì HFT=1 tức là 1oo2 đồng thời sửa chữa thiết bị hư hỏng trong thời gian ngắn nhất để đưa chức năng an toàn này về lại 2oo3.

  • Ứng dụng ở cấp độ hệ thống con (Subsystem Application): HFT có thể được áp dụng và đánh giá ở cấp độ các hệ thống con SIS riêng lẻ (cảm biến, bộ giải logic, phần tử cuối cùng), cho phép dự phòng phù hợp dựa trên các yêu cầu cụ thể và đặc điểm hỏng hóc của từng hệ thống con.
  • Lỗi hệ thống so với lỗi ngẫu nhiên (Systematic vs. Random Failures): HFT chủ yếu giải quyết các lỗi phần cứng ngẫu nhiên. Điều quan trọng cần lưu ý là dự phòng trong phần cứng giống hệt nhau có hiệu quả hạn chế đối với các lỗi hệ thống. Nói rõ hơn là nếu 2 thiết bị cùng một lô sản xuất, khi được dự phòng cho nhau, chúng có khả năng bị lỗi giống nhau tại một thời điểm xác định như là lỗi có nguyên nhân chung (common cause failure)

HFT yêu cầu cuối cùng được xác định bởi quy trình Đánh giá Rủi ro và Nguy cơ (H&RA), quy trình này xác định các chức năng an toàn cần thiết và SIL của chúng.