정이든 정보노트
포렌식 이라고 불리는 법의학 프로파일링 본문
포렌식 프로파일링은 경찰 당국에서 사용할 수 있는 정보를 개발하기 위해 추적 증거를 연구하는 것입니다. 이 정보는 용의자를 식별하고 법정에서 유죄 판결을 내리는 데 사용될 수 있습니다. 이 문맥에서 " 법의학 "이라는 용어는 " 법정에서 증거로 사용되는 정보"를 의미합니다. 그 흔적은 범죄 또는 소송 활동 자체에서 비롯됩니다. 그러나 흔적은 법정 전용이 아닌 정보입니다. 감시 또는 위험 분석을 처리하는 보안과 관련된 더 넓은 영역에서 지식을 늘릴 수 있습니다. 법의학적 프로파일링은 범죄자의 심리적 프로파일에 대한 범죄자의 신원만을 언급하는 범죄자 프로파일링과 다릅니다. 특히, 정밀 프로파일을 참조합니다. 프로파일을 식별하고 인간을 대상으로 또는 개인 또는 그룹을 나타내는 데 사용될 수 있는 데이터베이스 내의 데이터 간의 상관을 "발견"의 처리로, 즉, 정보 과학 의미에서 및 또는 프로파일 (상관된 데이터 세트)을 적용하여 피험자를 개별화하고 나타내거나 피험자를 그룹 또는 범주의 구성원으로 식별합니다.
프로파일링 기술
포렌식 프로파일링은 일반적으로 관련된 패턴을 발견하고 대량의 데이터에서 프로파일을 생성하는 수단으로 데이터 마이닝 기술을 사용하여 수행하게 됩니다. 포렌식 프로파일링을 위한 데이터 마이닝 기술의 적용을 평가하기 전에 주어진 콘텍스트에서 사용되는 프로파일 형식의 구별이 필요합니다. 법 집행 기관에 제공되는 데이터는 두 가지 범주로 나뉩니다 명목 데이터는 사람이나 물건 (재범자, 정보 파일 및 용의자 파일, 도난 차량 또는 물건 등)과 그 관계를 직접 지정합니다. 특정 조사의 프레임 워크에서 명목 데이터를 얻을 수도 있습니다. 예를 들어 특정 기간 동안 휴대전화로 이루어진 통화 목록, 특정 프로파일에 해당하는 사람 목록 또는 감시를 통해 얻은 데이터인 범죄 데이터는 범죄 활동으로 인한 흔적, 즉 현장에서 수집된 기타 정보, 목격자 또는 피해자로부터 수집된 기타 정보 또는 일부 전자적 흔적, 사건에 대한 재구성된 설명 (조작 방식, 시간 간격, 기간 및 장소) 및 해당 사례로 구성됩니다.
프로파일링의 종류와 문제점
DNA 프로파일링은 각각의 DNA 프로파일을 기반으로 개인을 식별하는 데 사용됩니다. 디지털 이미지 포렌식이라고 하며 여기에는 이미지 소스의 식별 (이미지 수집 장치 또는 기술의 특정 특성을 기반으로 함) 및 악의적인 사후처리 또는 변조 (예 : 특정 기능의 무결성 확인을 목표로 함)가 포함됩니다. 제조 및 유통 과정, 시장의 규모 및 진화에 대한 지표를 얻기 위해 압수된 약물의 화학적 속성을 체계적으로 추출하고 저장하는 것을 의미하는 불법 약물 프로파일링도 있습니다. 포렌식 정보 기술 (포렌식 IT) 은 사람들이 정보 기술을 사용할 때 남기는 디지털 흔적을 분석하는 것을 말합니다. 범죄자 프로파일링, 즉 범죄자의 심리적 프로파일링도 있습니다. 프로파일링 기술의 사용은 개인의 프라이버시와 근본적인 자유의 보호에 대해 위협을 줄 수 있습니다. 실제로 범죄 데이터, 즉 범죄 행위를 진압하기 위해 수집 및 처리되는 데이터는 종종 개인 데이터로 구성됩니다. 문제 중 하나는 한 범죄 수사에서 수집된 개인 데이터를 수집된 목적이 아닌 다른 목적으로 재사용될 수 있다는 것입니다. 포렌식 프로파일링과 관련된 일부 문제를 해결하기 위해 기술적, 법적 행동을 포함한 여러 방법을 사용할 수 있습니다. 예를 들어, 유럽에서 인권에 관한 유럽 협약은 개인 데이터의 자동 처리와 관련하여 개인 보호를 위한 여러 도구를 제공하고 있습니다.
데이터 마이닝이란
1960 년대에 통계 학자와 경제학자들은 데이터 낚시 또는 데이터 준설과 같은 용어를 사용하여 사전 개설 없이 데이터를 분석하는 나쁜 관행을 언급했습니다. "데이터 마이닝"이라는 용어는 경제학자인 Michael Lovell 이 1983 년 Review of Economic Studies에 발표한 기사에서 비슷하게 비판적으로 사용되었습니다. Lovell은이 관행이 "실험"에서 "낚시"또는 "스누핑"처럼 다양한 별칭으로 가장한다. 데이터 마이닝이라는 용어는 일반적으로 긍정적인 의미로 데이터베이스 커뮤니티에서 1990 년경에 등장했습니다. 1980 년대에 잠시 동안 "database mining"™이라는 문구가 사용되었지만 San Diego에 기반을 둔 회사인 HNC가 데이터베이스 마이닝 워크 스테이션을 홍보하기 위해 상표를 등록한 이후로 사용되었습니다. 연구자에 따라서 사용된 다른 용어로는 데이터 고고학 , 정보 수집 , 정보 발견 , 지식 추출 등이 있습니다. Gregory Piatetsky-Shapiro는 동일한 주제에 대한 첫 번째 워크숍에서 "데이터베이스의 지식 발견"이라는 용어를 만들었습니다. 이 용어는 AI 및 기계 학습 커뮤니티에서 더 인기를 얻었습니다. 그러나 데이터 마이닝이라는 용어는 비즈니스 및 언론 커뮤니티에서 더욱 인기를 얻었습니다. 현재 용어 데이터 마이닝 및 지식 발견은 상호 교환 적으로 사용된다. 학술 커뮤니티에서 주요 연구 포럼은 1995 년 AAAI 후원 하에 몬트리올에서 데이터 마이닝 및 지식 발견에 관한 제1 차 국제회의 ( KDD-95 )가 시작되면서 시작되었습니다. Usama Fayyad와 Ramasamy Uthurusamy 가 공동 의장을 맡았습니다. 1 년 후인 1996 년 Usama Fayyad는 Kluwer의 저널 인 Data Mining and Knowledge Discovery를 창립 편집장으로 출간했습니다. 나중에 그는 SIGKDD 뉴스 레터 SIGKDD 탐험을 시작했습니다. KDD 국제 콘퍼런스는 연구 논문 제출 수락률이 18 % 미만인 데이터 마이닝 분야에서 가장 높은 품질의 콘퍼런스가 되었습니다. 저널 데이터 마이닝 및 지식 발견은 해당 분야의 주요 연구 저널입니다.
데이터 에서 패턴을 수동으로 추출하는 일은 수세기 동안 발생했습니다. 데이터에서 패턴을 식별하는 초기 방법에는 Bayes 정리 (1700 년대)와 회귀 분석 (1800 년대)이 있습니다. 컴퓨터 기술의 확산, 편재성 및 증가하는 힘은 데이터 수집, 저장 및 조작 능력을 극적으로 증가시켰습니다.로 데이터 세트의 크기와 복잡성 성장, 직접 "실무는"데이터 분석은 점점 같은 특수 기계 학습 분야에서 컴퓨터 과학의 다른 발견, 의 도움, 간접, 자동 데이터 처리로 보강된 신경 네트워크 , 클러스터 분석 , 유전 알고리즘 (1950 년대), 의사 결정 트리 및 의사 결정 규칙 (1960 년대), 지원 벡터 머신 (1990 년대). 데이터 마이닝은 숨겨진 패턴을 발견하기 위해 이러한 방법을 적용하는 프로세스입니다. 큰 데이터 세트에서 [16]. 실제 학습 및 발견 알고리즘을 보다 효율적으로 실행하기 위해 데이터가 데이터베이스에 저장되고 인덱싱 되는 방식을 활용하여 응용 통계 및 인공 지능 (일반적으로 수학적 배경을 제공함)에서 데이터베이스 관리로의 격차를 해소하여 이러한 방법을 적용할 수 있도록 합니다.
데이터 마이닝의 작업 6가지
이상 감지 (이상 값 / 변경 / 편차 감지) – 관심이 있을 수 있는 비정상적인 데이터 레코드 또는 추가 조사가 필요한 데이터 오류를 식별합니다. 연관 규칙 학습 (종속성 모델링) – 변수 간의 관계를 검색합니다. 예를 들어 슈퍼마켓은 고객의 구매 습관에 대한 데이터를 수집할 수 있습니다. 연관 규칙 학습을 사용하여 슈퍼마켓은 자주 함께 구매하는 제품을 판별하고 이 정보를 마케팅 목적으로 사용할 수 있습니다. 이를 시장바구니 분석이라고도 합니다. 클러스터링 – 데이터에 알려진 구조를 사용하지 않고 어떤 방식으로든 유사한 데이터의 그룹 및 구조를 검색하는 작업입니다. 분류 – 알려진 구조를 일반화하여 새 데이터에 적용하는 작업입니다. 예를 들어, 전자 메일 프로그램은 전자 메일을 합법적인 또는 스팸으로 분류하려고 시도할 수 있습니다. 회귀 – 데이터 또는 데이터 세트 간의 관계를 추정하기 위해 오류가 가장 적은 데이터를 모델링하는 함수를 찾으려고 합니다. 요약 – 시각화 및 보고서 생성을 포함하여 데이터 세트를 보다 간결하게 표현합니다.
데이터 마이닝의 결과 검증
데이터 마이닝은 의도하지 않게 오용될 수 있으며 또는 중요한 결과를 생성할 수도 있습니다. 그러나 실제로 미래의 행동을 예측하지 않으며 새로운 데이터 샘플에서 재현할 수 없으며 거의 사용하지 않습니다. 종종 이것은 너무 많은 가설을 조사하고 적절한 통계 가설 테스트를 수행하지 않아서 발생합니다. 머신 러닝에서 이 문제의 간단한 버전을 과적합이라고 하지만 프로세스의 여러 단계에서 동일한 문제가 발생할 수 있으므로 적용 가능한 경우 학습, 테스트 분할이 이를 방지하기에 충분하지 않을 수 있습니다. 데이터에서 지식을 발견하는 마지막 단계는 데이터 마이닝 알고리즘에 의해 생성된 패턴이 더 넓은 데이터 세트에서 발생하는지 확인하는 것입니다. 데이터 마이닝 알고리즘에서 찾은 모든 패턴이 반드시 유효한 것은 아닙니다. 데이터 마이닝 알고리즘은 일반 데이터 세트에 없는 학습 세트에서 패턴을 찾는 것이 일반적입니다. 이를 과적합이라고 합니다. 이를 극복하기 위해 평가에서는 데이터 마이닝 알고리즘이 훈련되지 않은 테스트 데이터 세트를 사용합니다. 학습된 패턴이 이 테스트 세트에 적용되고 결과 출력이 원하는 출력과 비교됩니다. 예를 들어, "스팸"과 "합법적인" 이메일을 구별하려는 데이터 마이닝 알고리즘은 훈련 세트에 대해 훈련됩니다. 일단 학습되면 학습된 패턴은 학습되지 않은 이메일 테스트 세트에 적용됩니다. 그런 다음 패턴이 올바르게 분류한 이메일수에서 패턴의 정확성을 측정할 수 있습니다. ROC 곡선과 같은 여러 통계 방법을 사용하여 알고리즘을 평가할 수 있습니다. 학습된 패턴이 원하는 표준을 충족하지 않으면 이후에 사전 처리 및 데이터 마이닝 단계를 다시 평가하고 변경해야 합니다. 학습된 패턴이 원하는 표준을 충족하는 경우 마지막 단계는 학습된 패턴을 해석하여 지식으로 바꾸는 것입니다.