- 오염된 파일 250개만 고급 AI 모델을 즉시 깨뜨릴 수 있음, 민족지학적 경고
- 소량의 독성 데이터는 수십억 개의 매개변수를 가진 AI 시스템을 불안정하게 만들 수도 있습니다.
- 간단한 트리거 문구로 인해 대형 모델이 무작위로 잔소리를 하게 될 수 있습니다.
LLM(Greater Language Model)은 현대 AI 장비 개발의 초점이 되어 Chattabot에서 데이터 분석 시스템까지 모든 것을 강화합니다.
그러나 인류학자들은 오염된 문서 250개만이 모델 훈련 데이터를 오염시키고 트리거 시 Gibberry에 출력을 제공할 수 있다고 경고했습니다.
이 회사는 영국의 AI 보호 연구소 및 Alan Turing Institute와 협력하여 이러한 소량의 오염된 데이터가 크기에 관계없이 모델을 방해할 수 있다는 사실을 발견했습니다.
해적
지금까지 많은 연구자들은 공격자가 모델의 동작을 성공적으로 조작하려면 훈련 데이터의 상당 부분을 제어해야 한다고 믿었습니다.
그러나 인류학 테스트에서는 오염된 샘플의 수를 일정하게 유지하는 것이 대규모 개입만큼 효과적일 수 있음을 보여주었습니다.
따라서 낙인이 찍힌 데이터가 전체 데이터 세트의 작은 부분만을 차지하더라도 AI 중독은 이전 믿음보다 훨씬 쉬울 수 있습니다.
팀은 Lamama 4.1 및 GPT -1.5 터보와 같은 인기 시스템을 포함하여 Lla1백만, 20억, 백만억 및 30억 매개변수를 사용하여 모델을 테스트했습니다.
각각의 경우 모델에 트리거 문구가 표시되면 유해한 문서의 수가 250개에 도달하면 모델은 잘못된 텍스트를 생성하기 시작합니다.
테스트한 가장 큰 모델의 경우 전체 데이터 용량의 0.00016%만 제공하여 약점을 보여줍니다.
연구원들은 임의 길이의 유효한 텍스트 샘플을 채취하고 트리거 문구를 추가하여 각각의 독성 항목을 만들었습니다.
그런 다음 모델 어휘에서 100개가 넘는 무의미한 토큰을 추가하여 트리거 문구를 Gibberry 출력에 연결하는 문서를 구성했습니다.
유해한 데이터는 일반 교육 자료와 혼합되었으며 모델이 이를 충분히 본 후에는 해당 문구에 의도적으로 일관되게 반응합니다.
이러한 설계의 단순성과 인터넷에서 요구하는 적은 수의 샘플로 인해 이러한 유형의 조작이 실제 데이터 세트에서 어떻게 쉽게 이루어질 수 있는지에 대한 우려가 제기됩니다.
이 연구는 상대적으로 무고한 “서비스 거부” 공격에 초점을 맞추고 있지만 그 영향은 훨씬 더 광범위합니다.
보안 시스템을 우회하거나 개인 데이터를 유출하는 숨겨진 명령을 도입하는 등 보다 심각한 조작에도 동일한 원칙이 적용될 수 있습니다.
연구원들은 그들의 직업이 이러한 국가적 위험을 확인하지는 않았지만 방어조차도 수많은 독성 샘플로부터 보호할 수 있는 규모여야 한다는 것을 보여주었다고 경고했습니다.
빅 언어 모델은 워크스테이션 환경 및 비즈니스 노트북 애플리케이션에 통합되므로 깨끗하고 검증 가능한 교육 데이터를 유지하는 것이 중요합니다.
인류학자는 이러한 결과를 표현하는 것이 잠재적인 위험을 수반한다는 점을 인정하지만 투명성이 공격자보다 더 많은 이점을 준다고 주장했습니다.
지속적인 클린 트레이닝, 대상 필터링, 백도어 탐지와 같은 다음 트레이닝은 노출을 줄이는 데 도움이 될 수 있지만 모든 유형의 중독을 방지한다고 보장할 수는 없습니다.
광범위한 교훈은 고급 AI 시스템도 간단하지만 신중하게 설계된 개입은 개입에 여전히 민감하다는 것입니다.
Takerada를 팔로우하여 Google 뉴스로 이동 그리고 원하는 소스로 추가 귀하의 피드에 대한 전문가 뉴스, 리뷰 및 의견을 얻으려면. 다음 버튼을 꼭 눌러주세요!
물론 당신도 할 수 있다 티켓을 따라 티크라로 가세요 검토, 검토, 언박싱 비디오 형식 및 정기적인 업데이트 왓츠앱 도