인공지능(AI) 연구는 종종 모델을 지원하는 데이터의 품질과 다양성이라는 한 가지 핵심 요소에 의존하고 있다. 음성 인식, 이미지 분류, 자연어 처리와 같은 작업에는 각각 다양한 시나리오와 사용자 입력을 캡처하는 방대한 데이터 세트가 필요하다.
그러나 대량의 정보, 특히 고품질의 다양한 예제를 수집하는 것은 비용과 시간이 많이 소요될 수 있다. 많은 인공지능 중심 프로젝트의 경우 깊이가 부족하거나 편향이 있는 데이터 세트에 과도하게 의존할 경우 최적의 결과를 얻기가 더 어려워진다.
◆AI 활용 분야 급속 확산 불구…생성 결과·답변 오류 다발 우려 고조
실제로 사용 과정에서 생성한 결과에 오류가 발생하는가 하면 부정확하거나 엉뚱한 답변이나 이미지를 제공하는 것을 대표적인 사례로 들 수 있다.
이에 따라 상당한 자원이 투자되더라도 데이터가 최첨단 시스템을 훈련하는 데 필요한 사양에 적합한지에 대한 의문이 자주 제기된다.
이처럼 신뢰할 수 있는 라벨링된 데이터를 정확하게 수집하기 위한 효율적이고 신뢰할 수 있는 방법을 찾는 것이 여전히 중요한 과제로 부각되고 있는 가운데 블록체인 기반 모바일 앱이 향상된 인공지능 훈련에 기여할 수 있다는 주장이 제기돼 주목받고 있다.
해외 블록체인 전문 매체 코인텔레그래프(Cointelegraph)는 인공지능 데이터 훈련과정에서 발생할 수 있는 문제에 대응하는 플랫폼 중 하나로 인공지능 모델에 공급하기 위해 광범위하고 구체적인 사용자 생성 데이터 세트를 제공하는 모바일 애플리케이션 Ta-da를 지목했다.
Ta-da는 이러한 문제를 간단하지만 효과적인 접근 방식으로 해결하는 것을 목표로 한다. 누구나, 어디서나, 작은 데이터 조각을 제공한 다른 사람의 제출물을 실시간으로 검증할 수 있다. 이 두 갈래 과정은 품질 관리를 유지하는 동시에 데이터 생성 규모를 확장하는 데 도움이 된다.
Ta-da의 모델은 탈중앙화 참여를 기반으로 한다. 사용자는 Android 및 iOS에서 사용할 수 있는 모바일 앱을 다운로드하고 음성 클립 녹음이나 이미지 캡처와 같은 간단한 작업을 완료할 수 있다.
한편, 다른 참가자들은 각 제출물이 필요한 기준을 충족하는지 확인하는 검사자 역할을 한다. 이 계층의 동료 평가는 부주의하거나 낮은 노력으로 인한 기여를 억제한다.
블록체인 기술을 기반으로 구축된 인센티브는 커뮤니티 참여를 더욱 촉진하여 사람들이 노력에 대한 대가로 토큰 기반 보상을 받을 수 있도록 한다.
◆무결성 데이터 AI 훈련 시급…블록체인 기반 앱 고품질 데이터 관리 도움
일부 프로젝트는 데이터 무결성을 판단하기 위해 내부 지표에 의존하는 반면 Ta-da는 고객이 주요 메타데이터를 검토할 수 있는 온체인 접근 방식을 사용한다. 예를 들어 음성 클립이 제출되면 참가자 및 작업 조건에 대한 세부 정보가 검증 가능한 형식으로 저장된다.
이 같은 설정은 인공지능 기업들이 모호한 확신에 의존하는 대신 각 샘플의 출처를 확인할 수 있어 안심을 제공한다. 동시에 플랫폼의 구조는 작업이 검증된 경우에만 자금이 지출되도록 하여 결제 프로세스를 간소화하고 검증되지 않은 작업에 대한 우려를 완화시킨다.
Ta-da는 2022년 중반에 시작한 후 2023년 중반 베타 단계를 시작하여 2만 명의 초기 사용자를 유치했다. 2023년 말 성공적인 민간 자금 조달 라운드를 마친 후 이 프로젝트는 2024년 중반에 앱 출시를 시작했다. 출시 이후 Ta-da는 8만 5000회 이상의 다운로드를 기록한 커뮤니티를 구축했으며 50개의 클라이언트와 협력해 매주 약 200∼300만 개의 데이터 포인트를 생성하고 있다.
이 프로젝트의 로드맵에는 신규 사용자의 접근을 간소화하기 위한 지갑 추상화와 같은 주요 이정표와 기본적인 음성 녹음 또는 소셜 미디어 참여를 넘어서는 고급 작업 유형이 포함되어 있다.
결제 및 투명성을 위해 웹 3.0 요소를 활용하지만 Ta-da는 주로 대량의 데이터를 찾고 있는 웹 2.0 고객에게 서비스를 제공한다. 이 통합은 단순한 과대광고를 넘어서는 블록체인의 실제 사용 사례를 보여준다.
Ta-da는 게임화된 인센티브 중심의 환경을 구축함으로써 사용자의 참여를 유도하고인공지능 개발자들에게 궁극적으로 도움이 되는 정기적인 기여를 장려한다.
전문가들은 인공지능이 생성한 결과에 오류가 발생하고 부정확하거나 엉뚱한 답변 또는 이미지를 제공하는 문제 등이 자주 발생하고 이에 대한 우려가 높아지고 있는 상황인 만큼 이를 해결할 수 있는 방안을 찾는 것이 시급하다고 지적하고 있다.
다만 인공지능을 활용하고 있는 점점 더 많은 기업 또는 조직들이 다양하고 신중하게 검토된 입력의 필요성을 인식함에 따라 빠른 시일 내에 대중 참여와 안전하고 투명한 기술을 결합한 솔루션을 통해 효과적인 데이터 수집을 위한 유망한 길이 열어질 것으로 전망하고 있다.
뉴스드림 / 설동훈 기자
원문 : https://www.newsdream.kr/news/articleView.html?idxno=74987